主页 - 薛小嵩blog

引言写torch过程中接触到torch.clone() 和 python.copy() 理解Python中的对象复制概念在Python中，有三种主要的方式来”复制”一个对象：赋值操作（=）：创建对原始对象的引用，而非复制对象本身浅复制（Shallow Copy）：创建一个新对象，但内部元素仍指向原始对象深复制（Deep Copy）：创建一个全新的对象，包括所有嵌套的对象赋值操作 list1 = [1, 2, [3, 4]] list2 = list1 # 赋值操作，list2引用与list1相同的对象 list2[0] = 5 print(list1) # 输出：[5, 2, [3, 4]] 在这个例子中，list1和list2指向内存中...

区别 CUDA Cores 和 Tensor Cores 是 NVIDIA GPU 显卡中的不同类型的处理单元，它们设计用来执行不同类型的计算任务。 CUDA Cores： CUDA Cores（Compute Unified Device Architecture Cores）是用于处理通用计算任务的核心。它们是最基础的处理单元，能够执行浮点和整数操作，适用于各种计算密集型任务，包括图形渲染、科学计算和机器学习算法。 CUDA Cores 的设计侧重于提供高吞吐量的串行计算能力，适合广泛类型的通用计算任务。 Tensor Cores： Tensor Cores 是 NVIDIA 在其后代 GPU 架构（如 Volta、Turing 和 Ampere）中引...

从vllm的rocm 适配来看AMD gpu的支持情况 vllm 的 setup.py 中支持的RCOM structure 有： # Supported NVIDIA GPU architectures. NVIDIA_SUPPORTED_ARCHS = {"7.0", "7.5", "8.0", "8.6", "8.9", "9.0"} ROCM_SUPPORTED_ARCHS = {"gfx90a", "gfx908", "gfx906", "gfx1030", "gfx1100"} # SUPPORTED_ARCHS = NVIDIA_SUPPORTED_ARCHS.union(ROCM_SUPPORTED_ARCHS) 支持的架构有： gfx90a： cDNA2 M...

问题描述 ssh 拉取 github代码有问题，提示time out 问题分析应该是tcp 阻断 22端口换成 443 端口即可解决 ~/.ssh/config 添加 Host github.com Hostname ssh.github.com Port 443 即可

gpt-fast 参考： https://github.com/pytorch-labs/gpt-fast https://pytorch.org/blog/accelerating-generative-ai-2/ https://mp.weixin.qq.com/s/QlpyjnkuNKGe_KP2Ut0Fgg 环境配置 git clone git@github.com:pytorch-labs/gpt-fast.git 官方没有指定，docker容器，选择拉取最新的pytorch/pytorch 验证环境符合要求 shm-size 需要设置大一些，否则torch.dymno 会有 no space left 报错截至2024.1.16, gpt-fast 这种必...

背景查看较大 json文件，vscode-ssh 太大也无法查看解决安装 yum install jq jq '.' filename.json | less 这里的 ‘.’ 是一个简单的 jq 过滤器，代表将整个输入JSON文件作为输出。但是这样的话，失去了jq 自带的json 高亮，使用下面命令： jq -C '.' filename.json | less -R 这里的-C选项告诉jq输出颜色化的JSON，而less命令的-R选项则允许显示ANSI颜色转义序列。

nvidia-smi 技巧查询nvlink互联拓扑： nvidia-smi topo -m 以下是几个例子双卡1080ti，普通家用主板: yxc@hua-System-Product-Name:~$ nvidia-smi topo -m GPU0 GPU1 CPU Affinity NUMA Affinity GPU0 X PHB 0-11 N/A GPU1 PHB X 0-11 N/A Legend: X = Self SYS = Connection traversing PCIe as well as the SMP ...

HuggingFace模型调用模型下载可以从官网下载，出于国内网络连接问题，也可使用镜像网站（非官方）下载镜像地址： https://aliendao.cn/ ，用–repo_id指定对应模型的名称即可下载： $ pip install huggingface_hub $ wget http://61.133.217.142:20800/download/model_download.py # 比如下载THUDM/chatglm-6b $ python model_download.py --mirror --repo_id THUDM/chatglm-6b => 所有文件保存到dataroot/models/THUDM/chatglm-6b目录下模型文件解...

主页

Python深浅拷贝详解：内存管理机制、实现原理与常见陷阱

NVIDIA GPU架构深度解析：CUDA Cores与Tensor Cores的技术原理与性能差异比较

通过vLLM的ROCm适配揭示AMD GPU在AI推理领域的支持现状

解决SSH连接GitHub超时问题：端口配置与网络故障排查指南

gpt-fast 预测性推理 speculative decode 自测

终端高效处理大型JSON文件：命令行工具jq与格式化功能

NVIDIA-SMI命令完全指南：GPU监控与管理实用技巧

HuggingFace 模型调用