主页

Python深浅拷贝详解:内存管理机制、实现原理与常见陷阱

引言 写torch过程中接触到torch.clone() 和 python.copy() 理解Python中的对象复制概念 在Python中,有三种主要的方式来”复制”一个对象: 赋值操作(=):创建对原始对象的引用,而非复制对象本身 浅复制(Shallow Copy):创建一个新对象,但内部元素仍指向原始对象 深复制(Deep Copy):创建一个全新的对象,包括所有嵌套的对象 赋值操作 list1 = [1, 2, [3, 4]] list2 = list1 # 赋值操作,list2引用与list1相同的对象 list2[0] = 5 print(list1) # 输出:[5, 2, [3, 4]] 在这个例子中,list1和list2指向内存中...

阅读更多

NVIDIA GPU架构深度解析:CUDA Cores与Tensor Cores的技术原理与性能差异比较

区别 CUDA Cores 和 Tensor Cores 是 NVIDIA GPU 显卡中的不同类型的处理单元,它们设计用来执行不同类型的计算任务。 CUDA Cores: CUDA Cores(Compute Unified Device Architecture Cores)是用于处理通用计算任务的核心。 它们是最基础的处理单元,能够执行浮点和整数操作,适用于各种计算密集型任务,包括图形渲染、科学计算和机器学习算法。 CUDA Cores 的设计侧重于提供高吞吐量的串行计算能力,适合广泛类型的通用计算任务。 Tensor Cores: Tensor Cores 是 NVIDIA 在其后代 GPU 架构(如 Volta、Turing 和 Ampere)中引...

阅读更多

通过vLLM的ROCm适配揭示AMD GPU在AI推理领域的支持现状

从vllm的rocm 适配来看AMD gpu的 支持情况 vllm 的 setup.py 中支持的RCOM structure 有: # Supported NVIDIA GPU architectures. NVIDIA_SUPPORTED_ARCHS = {"7.0", "7.5", "8.0", "8.6", "8.9", "9.0"} ROCM_SUPPORTED_ARCHS = {"gfx90a", "gfx908", "gfx906", "gfx1030", "gfx1100"} # SUPPORTED_ARCHS = NVIDIA_SUPPORTED_ARCHS.union(ROCM_SUPPORTED_ARCHS) 支持的架构有: gfx90a: cDNA2 M...

阅读更多

gpt-fast 预测性推理 speculative decode 自测

gpt-fast 参考: https://github.com/pytorch-labs/gpt-fast https://pytorch.org/blog/accelerating-generative-ai-2/ https://mp.weixin.qq.com/s/QlpyjnkuNKGe_KP2Ut0Fgg 环境配置 git clone git@github.com:pytorch-labs/gpt-fast.git 官方没有指定,docker容器,选择拉取最新的pytorch/pytorch 验证环境符合要求 shm-size 需要设置大一些,否则torch.dymno 会有 no space left 报错 截至2024.1.16, gpt-fast 这种必...

阅读更多

终端高效处理大型JSON文件:命令行工具jq与格式化功能

背景 查看较大 json文件,vscode-ssh 太大也无法查看 解决 安装 yum install jq jq '.' filename.json | less 这里的 ‘.’ 是一个简单的 jq 过滤器,代表将整个输入JSON文件作为输出。 但是这样的话,失去了jq 自带的json 高亮,使用下面命令: jq -C '.' filename.json | less -R 这里的-C选项告诉jq输出颜色化的JSON,而less命令的-R选项则允许显示ANSI颜色转义序列。

阅读更多

NVIDIA-SMI命令完全指南:GPU监控与管理实用技巧

nvidia-smi 技巧 查询nvlink互联拓扑: nvidia-smi topo -m 以下是几个例子 双卡1080ti,普通家用主板: yxc@hua-System-Product-Name:~$ nvidia-smi topo -m GPU0 GPU1 CPU Affinity NUMA Affinity GPU0 X PHB 0-11 N/A GPU1 PHB X 0-11 N/A Legend: X = Self SYS = Connection traversing PCIe as well as the SMP ...

阅读更多

HuggingFace 模型调用

HuggingFace模型调用 模型下载 可以从官网下载,出于国内网络连接问题,也可使用镜像网站(非官方)下载 镜像地址: https://aliendao.cn/ , 用–repo_id指定对应模型的名称即可下载: $ pip install huggingface_hub $ wget http://61.133.217.142:20800/download/model_download.py # 比如下载THUDM/chatglm-6b $ python model_download.py --mirror --repo_id THUDM/chatglm-6b => 所有文件保存到dataroot/models/THUDM/chatglm-6b目录下 模型文件解...

阅读更多