适用人群:NAS 用户、本地 AI 新手
操作系统:飞牛 OS(fnOS)
最后更新:2026 年 6 月 23 日
📋 目录
- 背景说明
- 方案对比
- 双卡配置说明
- 部署与配置
- 4.1 Docker 公用配置
- 4.2 手动配置 Ollama + Open WebUI 部署
- 4.3 llama.cpp 部署配置(单卡 / 双卡通用)
- 4.4 Qwenpaw Compose 配置
- 模型实测与性能分析
- 新主机性能实测(6750 GRE + MI50 双卡)
- 使用方法与常见问题
- 总结与建议
- 参考资料
- llama性能天梯
一、背景说明
两台设备,一台铭凡 N5 的 NAS 主机,硬件配置如下:
| 项目 |
规格 |
| CPU |
AMD R7 255 |
| 显卡 |
Radeon 780M(板载集成,无独立显卡) |
| 内存 |
升级至 48GB |
| 存储 |
NAS 大容量硬盘 |
一台自己配的台式机(2026 年 6 月新增):
| 项目 |
规格 |
| CPU |
AMD Ryzen 9 7900X |
| 主板 |
铭瑄 B850 AIGA |
| 内存 |
32GB |
| 独显 |
AMD Radeon RX 6750 GRE 12GB(主卡) |
| 计算卡 |
AMD Radeon Instinct MI50 16GB(副卡) |
| 电源 |
1000W |
| 操作系统 |
飞牛 OS(fnOS) |
| 后端 |
llama Vulkan + MTP 投机解码 |
💡 关键说明:AMD 已停止对 MI50 的 ROCm 支持,新版镜像无法启用 LCM。目前 Vulkan 是唯一可用的最佳方案。
二、方案对比
| 方案 |
优点 |
缺点 |
| 方案 1:飞牛原生 ollama 套件 |
应用市场一键安装,ollama + openwebui 组合 |
版本更新没有 ollama 官方快 |
| 方案 2:Docker ollama + 飞牛市场 lobechat |
lobechat 界面简洁 |
lobechat 版本较低,后续维护转向 Windows |
| 方案 3:Docker ollama + openwebui |
版本最新,功能最全,支持模型管理、多轮对话、知识库 |
需手动配置 Docker |
| 方案 4:Docker llama.cpp + qwenpaw |
推理速度更快,模型精度可选范围更广,支持 GGUF 模型直下 |
部署复杂,单次仅能运行一个模型 |
三、双卡配置说明
💡 双卡架构:RX 6750 GRE 12GB(主卡,50% 计算)+ MI50 16GB(副卡,50% 计算),按层拆分部署大模型。
⚠️ 兼容性:AMD 已停止对 MI50 的 ROCm 支持,新版的镜像无法启用该模式。使用 vulkan 模式两块同型号显卡可正常启动,效率可能比 rocm 略低。
四、部署与配置
如果使用 docker 部署,建议都使用 compose,一开始我也是手动配置,但是容器经常有各种各样的问题,使用 compose 效率要高的多,一次填写可以重复构建。
4.1 Docker 公用配置
# 以下配置适用于所有 Docker 容器
environment:
- TZ=Asia/Shanghai # 设置容器时区为上海
volumes:
- /etc/localtime:/etc/localtime:ro # 挂载宿主机时区文件(只读)
- /etc/timezone:/etc/timezone:ro # 挂载时区名称(部分软件依赖此文件)
4.2 手动配置 Ollama + Open WebUI 部署
1. 下载 Docker 镜像
- ollama:在飞牛 Docker 镜像仓库搜索 ollama,选择官方源 ollama/ollama 下载 latest 版本
- openwebui:通过本地镜像 → 添加镜像,手动拉取 ghcr.io/open-webui/open-webui:main
- ROCm 版本(可选):如需 AMD GPU 专用优化版,手动拉取 ollama/ollama:x.xx.xx-rocm
💡 ROCm 与 Vulkan 对比:ROCm 是 AMD 原生 GPU 计算平台,Vulkan 是跨平台方案。Radeon 780M 两种均可使用
2. 配置 Ollama 容器
| 配置项 |
设置值 |
说明 |
| 开机自动启动 |
✅ 勾选 |
保证长期运行 |
| 端口映射 |
11434 |
确保未被占用 |
| 存储路径 |
/root/.ollama/(自定义) |
建议选大容量磁盘 |
| 网络模式 |
host |
ollama 需使用 host 模式 |
| 环境变量 |
OLLAMA_ORIGINS=* |
允许所有来源访问(必填) |
| 环境变量 |
OLLAMA_VULKAN=1 |
启用 Vulkan 后端 |
⚠️ Vulkan 与 ROCm 二选一:
- 使用 Vulkan:保留 OLLAMA_VULKAN=1,删除 ROCm 相关变量
- 使用 ROCm:保留 HSA_OVERRIDE_GFX_VERSION=11.0.0,删除 OLLAMA_VULKAN=1
本教程显卡为 Radeon 780M,经测试 HSA_OVERRIDE_GFX_VERSION=11.0.0 可用。别的显卡请参考 AMD 官方 hip 的官方网页。
3. 配置 Open WebUI 容器
| 配置项 |
设置值 |
说明 |
| 端口映射 |
3000:8080 |
宿主机 3000 端口映射到容器 8080 |
| 存储路径 |
/root/open-webui(自定义) |
自定义映射路径,不与其他容器共用 |
| 网络模式 |
bridge |
标准桥接模式 |
4.3 llama.cpp 部署配置(单卡 / 双卡通用)
一份 compose 兼容单卡和双卡,显卡拆分部分已注释,按需启用。
services:
# 服务一:llama(主推理服务)
llama:
image: ghcr.io/ggml-org/llama.cpp:server-vulkan-b9737
container_name: llama
restart: unless-stopped
ports:
- 8082:8082/tcp
volumes:
- /vol1/1000/docker/llama/models:/models
devices:
- /dev/kfd:/dev/kfd # ROCm 内核驱动设备,必需
- /dev/dri:/dev/dri # 直接渲染设备,vulkan 必需
group_add:
- video
networks:
- localNetwork
environment:
#- LLAMA_AR**ODEL=/models/xxxxx.gguf #x.gguf就是模型的名称
- LLAMA_AR**ODEL=/models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf
# --- Qwen 专属采样策略 (严谨逻辑,防重复) ---
- LLAMA_ARG_TEMP=0.8
- LLAMA_ARG_TOP_P=0.97
- LLAMA_ARG_TOP_K=40
- LLAMA_ARG_REPEAT_PENALTY=1.1
# vulkan 专用优化配置
- GGML_VULKAN=1 # 强制启用 Vulkan
- GGML_VK_VISIBLE_DEVICES=1,2 # 只认 6750 GRE + MI50,完全忽略核显,单卡请注释掉,就是前面加#
- GGML_VK_FORCE_MMVQ=1 #MMVQ 是多行矩阵向量量化乘,心里觉得有效
# 缓存优化配置
- LLAMA_ARG_CTX_SIZE=262144 # 不知道为什么我的机器只能识别一半的上下文,填128k就显示64k。。。
- LLAMA_ARG_BATCH=2048 # 逻辑批,默认是 512 或 1024,针对长文本加大
- LLAMA_ARG_UBATCH=1024 # 物理批大小,配合 2048 的逻辑批
- LLAMA_ARG_FLASH_ATTN=1 # 集中模型注意力,vulkan 有效
#- LLAMA_ARG_N_GPU_LAYERS=99 # 全模型层上 GPU,确保大上下文
#- LLAMA_ARG_N_CPU_MOE=22 # 混合状态下可以把部分卸载到 cpu,单显卡显存不够的情况下,似乎这个22最合适。
- LLAMA_ARG_CACHE_TYPE_K=q8_0 # KV Cache K 量化,节省显存
- LLAMA_ARG_CACHE_TYPE_V=q4_0
# 线程优化
#- LLAMA_ARG_SLOTS=2 # 智能体并发槽位数量
- LLAMA_ARG_N_PARALLEL=2 # 每个槽位线程数量
# 重复惩罚
- LLAMA_ARG_DRY_MULTIPLIER=1.5 # DRY 重复惩罚乘数(1 为不惩罚)
- LLAMA_ARG_DRY_ALLOWED_LENGTH=4 # 惩罚生效的阈值长度(Token 数)
- LLAMA_ARG_DRY_PENALTY_LAST_N=4096 # 重复惩罚的检测窗口(倒数 N 个 Token)
# 投机解码配置
- LLAMA_ARG_SPEC_TYPE=draft-mtp # 开启 MTP 投机解码
- LLAMA_ARG_SPEC_HEURISTIC=1 # 启用动态投机解码
- LLAMA_ARG_SPEC_DRAFT_N_MAX=2 # 最多猜 2 个,超过这个2会影响速度
- LLAMA_ARG_SPEC_DRAFT_N_MIN=1 # 最少猜 1 个
- LLAMA_ARG_PORT=8082
- LLAMA_ARG_HOST=0.0.0.0
# 显卡拆分配置(双卡用户取消注释,单卡用户保持注释)
- LLAMA_ARG_SPLIT_MODE=layer # 按层拆分
- LLAMA_ARG_TENSOR_SPLIT=4,6 # 显存分配
- LLAMA_AR**AIN_GPU=0 # 主显卡
# 其他优化
- LLAMA_ARG_NO_MMAP=1 # 内存全量读取,避免使用磁盘缓存,但是要占至少8GB内存
- LLAMA_ARG_CTX_CHECKPOINTS=64 # 增加检查点数量
- LLAMA_ARG_CONT_BATCHING=1 # 开启连续批处理
networks:
localNetwork:
external: true
driver: bridge
💡 单卡使用:保持显卡拆分部分注释状态即可,无需修改。
💡 双卡使用:取消显卡拆分部分的注释,并根据实际显存分配调整 TENSOR_SPLIT 比例。
4.4 Qwenpaw Compose 配置
以下配置用于部署 qwenpaw(AI 助手服务),包含私有版和联网版两个实例:
services:
# 服务一:qwenpaw-solo(私有版,不联网)
qwenpaw-solo:
container_name: qwenpaw-solo
image: agentscope/qwenpaw:latest
restart: always
ports:
- 8089:8088/tcp
environment:
- TZ=Asia/Shanghai
- QWENPAW_AUTH_ENABLED=true
volumes:
- /vol5/1000/Dockers/qwenpaw-solo/data:/app/working
- /vol5/1000/Dockers/qwenpaw-solo/secrets:/app/working.secret
- /vol5/1000/Dockers/qwenpaw-solo/backups:/app/working.backups
- /etc/localtime:/etc/localtime:ro
- /etc/timezone:/etc/timezone:ro
networks:
- localNetwork
# 服务二:qwenpaw(联网版,可访问互联网)
qwenpaw:
container_name: qwenpaw
image: agentscope/qwenpaw:latest
restart: always
ports:
- 8088:8088/tcp
environment:
- TZ=Asia/Shanghai
- QWENPAW_AUTH_ENABLED=true
volumes:
- /vol5/1000/Dockers/qwenpaw/data:/app/working
- /vol5/1000/Dockers/qwenpaw/secrets:/app/working.secret
- /vol5/1000/Dockers/qwenpaw/backups:/app/working.backups
- /etc/localtime:/etc/localtime:ro
- /etc/timezone:/etc/timezone:ro
networks:
- openNetwork
networks:
localNetwork:
external: true
driver: bridge
openNetwork:
external: true
driver: bridge
五、模型实测与性能分析
硬件环境:Radeon 780M + 48GB 内存 + Vulkan
5.1 Ollama 模型表现
| 模型 |
速度(token/s) |
评价 |
| qwen3.5-9b-q4 |
8-12 |
够用,智商一般 |
| qwen3.5-27b-q4 |
3-5 |
很慢,但智商很好 |
| qwen3.5-35b-a3b-q8 |
8-12 |
占用 36GB 内存,智商在线(q4 无法通过部分测试,q8 可以) |
| glm-4.7-flash-q8 |
10-12 |
速度快,但存在逻辑错误(如"4 月有 31 天") |
| lfm2-24b |
20+ |
极快,但无思考模式 |
💡 千问系列模型思考时间较长、输出偏啰嗦;GLM4.7 速度优秀但偶尔出现常识性错误。
5.2 llama.cpp 模型表现
感觉 llama.cpp 推理速度优于 ollama,模型精度选择更多,支持魔塔社区 GGUF 模型直下。
| 模型 |
速度(token/s) |
备注 |
| qwen3.5-27b-q4 |
4-5 |
- |
| qwen3.5-9b-q4 |
8-12 |
- |
| gemma26b-a4b-**-iq |
19-20 |
速度优秀 |
| qwen3.6-35b-a3b-**-iq |
20-22 |
流畅对话 |
| qwen3.6-35b-a3b-**-mtp-iq |
23-34 |
极不稳定,而且输出不线性,但是很快。 |
20+ token/s 的对话速度已足够流畅,阅读速度跟不上输出速度。
六、新主机性能实测(6750 GRE + MI50 双卡)
硬件环境:Radeon RX 6750 GRE 12GB + MI50 16GB + 32GB 内存 + Vulkan + MTP
💡 关键结论:
- 35B ** MTP 模型在 6750GRE + MI50 组合下稳定 55+ tok/s,对话体验流畅
- 27B 的 MTP-q4km 模型仅需 15.7GB 显存,速度 30+ tok/s,适合显存紧张的场景
- 双卡按层拆分后,双卡还是有点用处,主要是可以增加显存。
七、使用方法与常见问题
7.1 局域网访问
在浏览器中输入 http://<飞牛 NAS IP>:3000 即可打开 Open WebUI 界面。
7.2 通过 fnconnect 访问
打开飞牛 fnconnect → Docker → 容器列表 → 点击 ollama 容器行右侧的端口下拉框(显示 3000:8080),点击即可打开。
7.3 使用 qwenpaw 链接 llama 或者 ollama
进去 qwenpaw,点击左侧的模型,ollama 默认存在,直接输入 ollama 的 docker 名称 + 端口号就行,比如名称就是 ollama,那地址就输入 http://ollama:11434,就可以了。llama 需要在模型页面右上角点击新增。其余一样。
7.4 常见问题
Q:Open WebUI 页面无法打开
A:大概率是模型下载失败导致。找到嵌入模型配置项,删除后半部分文字(不要删除整个字段),即可正常打开界面。
八、总结与建议
| 优先级 |
建议 |
说明 |
| 1 |
新手入门 |
直接使用飞牛原生 ollama 套件,最简单 |
| 2 |
追求功能 |
方案 3(ollama + openwebui),持续维护中 |
| 3 |
追求性能 |
方案 4(llama.cpp + Vulkan),单卡 20+ token/s 流畅体验 |
| 4 |
硬件升级 |
铭凡 N5(48GB 内存)已足够运行 35B 模型;新主机(32GB 内存)需控制模型大小。若未来升级,建议关注 16GB 以上显存的独立显卡,但需注意 NAS 平台驱动兼容性 |
| 5 |
使用场景 |
日常文字编写、文档整理、信息检索、知识库管理、邮件处理等完全够用。编程任务未测试,如有需求建议搭配更高性能硬件 |
九、参考资料
| 资源 |
链接 |
| ollama 官方文档 |
https://ollama.com |
| openwebui 官方仓库 |
https://github.com/open-webui/open-webui |
| llama.cpp 官方仓库 |
https://github.com/ggml-org/llama.cpp |
| AMD ROCm 文档 |
https://rocm.docs.amd.com |
| 魔塔社区 |
https://modelscope.cn |
免责声明:本文基于个人实际测试经验编写,仅供参考。不同硬件配置可能导致结果差异,请根据自身情况调整配置。
llama.cpp GPU 性能天梯
数据来源:knightli.com 整理自 llama.cpp GitHub Discussions Scoreboard
测试模型: Llama 2 7B
测试量化: Q4_0
测试指标:
- pp512 t/s = 处理 512 个 prompt token 的吞吐量
- tg128 t/s = 连续生成 128 个 token 的速度(日常体验最相关)
CUDA 后端 — 无 Flash Attention
| 排名 |
显卡 |
显存配置 |
pp512 t/s |
tg128 t/s |
提交者 |
| 1 |
RTX 5090 |
32 GB / GDDR7 / 512 bit |
14073.41 |
290.02 |
@totaldev |
| 2 |
RTX PRO 6000 Blackwell |
96 GB / GDDR7 / 512 bit |
14854.63 |
274.20 |
@Tom94 |
| 3 |
H100 80 GB |
80 GB / HBM3 / 5120 bit |
9918.34 |
267.81 |
@Hedede |
| 4 |
A100 80 GB |
80 GB / HBM2e / 5120 bit |
4849.53 |
190.88 |
@Hedede |
| 5 |
RTX 4090 D |
24 GB / GDDR6X / 384 bit |
10293.86 |
189.33 |
@autonomous-AI-lab |
| 6 |
RTX 4090 |
24 GB / GDDR6X / 384 bit |
11992.70 |
186.21 |
@lhl |
| 7 |
RTX 5080 |
16 GB / GDDR7 / 256 bit |
8297.36 |
181.99 |
@Hedede |
| 8 |
RTX 5070 Ti |
16 GB / GDDR7 / 256 bit |
6952.38 |
176.85 |
@TinyServal |
| 9 |
RTX 6000 Ada |
48 GB / GDDR6 / 384 bit |
9229.23 |
176.07 |
@Hedede |
| 10 |
RTX 3090 Ti |
24 GB / GDDR6X / 384 bit |
6567.49 |
171.19 |
@slaren |
| 11 |
RTX 3090 |
24 GB / GDDR6X / 384 bit |
5174.69 |
158.16 |
@m18coppola |
| 12 |
L40 |
48 GB / GDDR6 / 384 bit |
8870.49 |
152.01 |
@Hedede |
| 13 |
RTX 4080 SUPER |
16 GB / GDDR6X / 256 bit |
8125.15 |
148.33 |
@zacharyarnaise |
| 14 |
RTX 4080 |
16 GB / GDDR6X / 256 bit |
8031.64 |
142.49 |
@Ristovski |
| 15 |
RTX 3080 |
10 GB / GDDR6X / 320 bit |
5013.86 |
139.65 |
@slaren |
| 16 |
RTX A6000 |
48 GB / GDDR6 / 384 bit |
4913.93 |
138.73 |
@Hedede |
| 17 |
RTX 4070 Ti SUPER |
16 GB / GDDR6X / 256 bit |
6924.53 |
132.26 |
@Ristovski |
| 18 |
RTX PRO 4000 Blackwell |
24 GB / GDDR7 / 192 bit |
4992.83 |
131.66 |
@Hedede |
| 19 |
RTX A5000 |
24 GB / GDDR6 / 384 bit |
4028.16 |
130.07 |
@Hedede |
| 20 |
Tesla V100 |
32 GB / HBM2 / 4096 bit |
3042.64 |
129.08 |
@Hedede |
| 21 |
RTX 5070 |
12 GB / GDDR7 / 192 bit |
5184.75 |
127.54 |
@Spyro000 |
| 22 |
A40 |
48 GB / GDDR6 / 384 bit |
4609.01 |
124.11 |
@Hedede |
| 23 |
A30 |
24 GB / HBM2e / 3072 bit |
2767.10 |
124.81 |
@Hedede |
| 24 |
Titan V |
12 GB / HBM2 / 3072 bit |
2617.46 |
108.79 |
@Hedede |
| 25 |
RTX 2080 Ti |
11 GB / GDDR6 / 352 bit |
2890.66 |
107.51 |
@ariya |
| 26 |
Quadro RTX 6000 |
24 GB / GDDR6 / 384 bit |
2751.18 |
102.77 |
@Hedede |
| 27 |
Quadro RTX 8000 |
48 GB / GDDR6 / 384 bit |
2709.95 |
102.68 |
@Hedede |
| 28 |
RTX A4500 |
20 GB / GDDR6 / 320 bit |
2827.20 |
97.32 |
@aleksyx |
| 29 |
RTX 5060 Ti 16 GB |
16 GB / GDDR7 / 128 bit |
3737.25 |
90.94 |
@mike-llamacpp |
| 30 |
RTX 2070 SUPER |
8 GB / GDDR6 / 256 bit |
2088.34 |
88.06 |
@phstudy |
| 31 |
RTX A4000 |
16 GB / GDDR6 / 256 bit |
2496.09 |
84.21 |
@TinyServal |
| 32 |
RTX 3060 |
12 GB / GDDR6 / 192 bit |
2181.31 |
75.31 |
@QuantiusBenignus |
| 33 |
Titan Xp |
12 GB / GDDR5X / 384 bit |
1104.80 |
73.13 |
@Hedede |
| 34 |
Quadro RTX 4000 |
8 GB / GDDR6 / 256 bit |
1519.83 |
65.79 |
@Hedede |
| 35 |
RTX 4060 Ti 8 GB |
8 GB / GDDR6 / 128 bit |
3604.30 |
63.23 |
@mike-llamacpp |
| 36 |
Tesla P100 |
16 GB / HBM2 / 4096 bit |
760.80 |
58.35 |
@Hedede |
| 37 |
GTX 1080 Ti |
11 GB / GDDR5X / 352 bit |
1056.45 |
57.11 |
@ariya |
| 38 |
RTX A4000 Ada |
20 GB / GDDR6 / 160 bit |
2688.97 |
54.69 |
@sdwolfz |
| 39 |
RTX 2060 SUPER |
8 GB / GDDR6 / 256 bit |
1439.67 |
57.74 |
@ggerganov |
| 40 |
Tesla P40 |
24 GB / GDDR5 / 384 bit |
1007.42 |
54.74 |
@m18coppola |
| 41 |
RTX 2000 Ada |
16 GB / GDDR6 / 128 bit |
1966.07 |
49.15 |
@DigitalRudeness |
| 42 |
Tesla T4 |
16 GB / GDDR6 / 256 bit |
1219.06 |
46.38 |
@pt13762104 |
| 43 |
GTX 1660 |
6 GB / GDDR5 / 192 bit |
154.45 |
41.43 |
@ariya |
| 44 |
Tesla M40 |
24 GB / GDDR5 / 384 bit |
282.65 |
38.04 |
@Hedede |
| 45 |
GTX 1070 Ti |
8 GB / GDDR5 / 256 bit |
790.52 |
37.87 |
@pebaryan |
| 46 |
Jetson AGX Orin |
64 GB / LPDDR5 / 256 bit |
1171.96 |
35.88 |
@TinyServal |
| 47 |
Tesla P4 |
8 GB / GDDR5 / 256 bit |
529.53 |
33.12 |
@m18coppola |
| 48 |
P106-100 |
6 GB / GDDR5 / 192 bit |
438.49 |
30.64 |
@pebaryan |
| 49 |
GTX 1060 |
6 GB / GDDR5 / 192 bit |
446.19 |
28.18 |
@pebaryan |
| 50 |
Quadro T1000 |
4 GB / GDDR5 / 128 bit |
27.46 |
27.46 |
@hanabu |
| 51 |
Quadro P2000 |
5 GB / GDDR5 / 160 bit |
311.55 |
23.76 |
@TinyServal |
| 52 |
Tesla K80 |
12 GB / GDDR5 / 384 bit |
133.36 |
14.27 |
@pebaryan |
| 53 |
Quadro P1000 |
4 GB / GDDR5 / 128 bit |
173.82 |
13.65 |
@aleksyx |
CUDA 后端 — 开启 Flash Attention
| 排名 |
显卡 |
显存配置 |
pp512 t/s |
tg128 t/s |
提交者 |
| 1 |
RTX PRO 6000 Blackwell |
96 GB / GDDR7 / 512 bit |
16618.98 |
281.11 |
@Tom94 |
| 2 |
RTX 5090 |
32 GB / GDDR7 / 512 bit |
14970.15 |
300.40 |
@totaldev |
| 3 |
H100 80 GB |
80 GB / HBM3 / 5120 bit |
11263.29 |
280.74 |
@Hedede |
| 4 |
A100 80 GB |
80 GB / HBM2e / 5120 bit |
5285.96 |
200.90 |
@Hedede |
| 5 |
RTX 4090 D |
24 GB / GDDR6X / 384 bit |
12506.97 |
191.57 |
@autonomous-AI-lab |
| 6 |
RTX 4090 |
24 GB / GDDR6X / 384 bit |
14770.63 |
188.96 |
@lhl |
| 7 |
RTX 5080 |
16 GB / GDDR7 / 256 bit |
9487.70 |
184.68 |
@Hedede |
| 8 |
RTX 5070 Ti |
16 GB / GDDR7 / 256 bit |
8419.56 |
182.43 |
@TinyServal |
| 9 |
RTX 6000 Ada |
48 GB / GDDR6 / 384 bit |
10576.85 |
179.47 |
@Hedede |
| 10 |
RTX 3090 Ti |
24 GB / GDDR6X / 384 bit |
6924.01 |
172.26 |
@slaren |
| 11 |
RTX PRO 4500 Blackwell |
32 GB / GDDR7 / 256 bit |
7251.66 |
168.90 |
@Hedede |
| 12 |
RTX 3090 |
24 GB / GDDR6X / 384 bit |
5560.06 |
161.89 |
@m18coppola |
| 13 |
L40 |
48 GB / GDDR6 / 384 bit |
10097.64 |
153.76 |
@Hedede |
| 14 |
RTX 4080 SUPER |
16 GB / GDDR6X / 256 bit |
9439.01 |
147.48 |
@zacharyarnaise |
| 15 |
RTX A6000 |
48 GB / GDDR6 / 384 bit |
5662.39 |
144.87 |
@Hedede |
| 16 |
RTX 4080 |
16 GB / GDDR6X / 256 bit |
9205.93 |
143.47 |
@Ristovski |
| 17 |
RTX 3080 |
10 GB / GDDR6X / 320 bit |
5569.56 |
139.95 |
@slaren |
| 18 |
RTX PRO 4000 Blackwell |
24 GB / GDDR7 / 192 bit |
5674.44 |
136.38 |
@Hedede |
| 19 |
RTX A5000 |
24 GB / GDDR6 / 384 bit |
4552.15 |
135.83 |
@Hedede |
| 20 |
Tesla V100 |
32 GB / HBM2 / 4096 bit |
2973.78 |
134.76 |
@Hedede |
| 21 |
RTX 4070 Ti SUPER |
16 GB / GDDR6X / 256 bit |
7612.32 |
132.85 |
@Ristovski |
| 22 |
A30 |
24 GB / HBM2e / 3072 bit |
3068.72 |
131.93 |
@Hedede |
| 23 |
RTX 5070 |
12 GB / GDDR7 / 192 bit |
5783.44 |
128.21 |
@Spyro000 |
| 24 |
A40 |
48 GB / GDDR6 / 384 bit |
5256.38 |
126.24 |
@Hedede |
| 25 |
Titan V |
12 GB / HBM2 / 3072 bit |
2481.25 |
112.17 |
@Hedede |
| 26 |
RTX 2080 Ti |
11 GB / GDDR6 / 352 bit |
3107.61 |
109.17 |
@ariya |
| 27 |
Quadro RTX 6000 |
24 GB / GDDR6 / 384 bit |
3053.96 |
104.38 |
@Hedede |
| 28 |
Quadro RTX 8000 |
48 GB / GDDR6 / 384 bit |
3052.35 |
103.63 |
@Hedede |
| 29 |
RTX A4500 |
20 GB / GDDR6 / 320 bit |
3453.10 |
103.00 |
@aleksyx |
| 30 |
RTX 5060 Ti 16 GB |
16 GB / GDDR7 / 128 bit |
4195.53 |
93.46 |
@mike-llamacpp |
| 31 |
RTX 2070 SUPER |
8 GB / GDDR6 / 256 bit |
2293.29 |
87.71 |
@phstudy |
| 32 |
RTX A4000 |
16 GB / GDDR6 / 256 bit |
2807.83 |
85.17 |
@TinyServal |
| 33 |
RTX 3060 |
12 GB / GDDR6 / 192 bit |
2407.67 |
76.92 |
@QuantiusBenignus |
| 34 |
Titan Xp |
12 GB / GDDR5X / 384 bit |
1218.12 |
73.84 |
@Hedede |
| 35 |
Quadro RTX 4000 |
8 GB / GDDR6 / 256 bit |
1662.80 |
67.62 |
@Hedede |
| 36 |
RTX 4060 Ti 8 GB |
8 GB / GDDR6 / 128 bit |
3803.45 |
64.03 |
@mike-llamacpp |
| 37 |
Tesla P100 |
16 GB / HBM2 / 4096 bit |
787.36 |
61.99 |
@Hedede |
| 38 |
GTX 1080 Ti |
11 GB / GDDR5X / 352 bit |
1138.14 |
61.38 |
@ariya |
| 39 |
RTX A4000 Ada |
20 GB / GDDR6 / 160 bit |
3171.86 |
61.37 |
@sdwolfz |
| 40 |
RTX 2060 SUPER |
8 GB / GDDR6 / 256 bit |
1563.77 |
61.13 |
@ggerganov |
| 41 |
DGX Spark |
128 GB / LPDDR5x |
3661.37 |
56.74 |
@ggerganov |
| 42 |
Tesla P40 |
24 GB / GDDR5 / 384 bit |
1079.66 |
53.73 |
@m18coppola |
| 43 |
RTX 2000 Ada |
16 GB / GDDR6 / 128 bit |
2250.14 |
50.71 |
@DigitalRudeness |
| 44 |
Tesla T4 |
16 GB / GDDR6 / 256 bit |
1309.73 |
44.03 |
@pt13762104 |
| 45 |
GTX 1660 |
6 GB / GDDR5 / 192 bit |
154.45 |
41.43 |
@ariya |
| 46 |
Tesla M40 |
24 GB / GDDR5 / 384 bit |
290.17 |
39.98 |
@Hedede |
| 47 |
GTX 1070 Ti |
8 GB / GDDR5 / 256 bit |
790.52 |
37.87 |
@pebaryan |
| 48 |
Jetson AGX Orin |
64 GB / LPDDR5 / 256 bit |
1171.96 |
35.88 |
@TinyServal |
| 49 |
Tesla P4 |
8 GB / GDDR5 / 256 bit |
529.53 |
33.12 |
@m18coppola |
| 50 |
P106-100 |
6 GB / GDDR5 / 192 bit |
438.49 |
30.64 |
@pebaryan |
| 51 |
GTX 1060 |
6 GB / GDDR5 / 192 bit |
446.19 |
28.18 |
@pebaryan |
| 52 |
Tesla K80 |
12 GB / GDDR5 / 384 bit |
133.36 |
14.27 |
@pebaryan |
| 53 |
Quadro P1000 |
4 GB / GDDR5 / 128 bit |
173.82 |
13.65 |
@aleksyx |
ROCm / HIP 后端 — 无 Flash Attention
| 排名 |
显卡 |
显存配置 |
pp512 t/s |
tg128 t/s |
提交者 |
| 1 |
Instinct MI300X |
192 GB / HBM3 / 8192 bit |
11476.40 |
232.92 |
@yeahdongcn |
| 2 |
RX 7900 XTX |
24 GB / GDDR6 / 384 bit |
3552.27 |
167.11 |
@Diablo-D3 |
| 3 |
Instinct MI210 |
64 GB / HBM2e / 4096 bit |
2486.22 |
124.51 |
@65a |
| 4 |
Pro W7900 |
48 GB / GDDR6 / 384 bit |
3213.17 |
121.18 |
@65a |
| 5 |
RX 7900 XT |
20 GB / GDDR6 / 320 bit |
3098.38 |
116.15 |
@AdamNiederer |
| 6 |
RX 9070 |
16 GB / GDDR6 / 256 bit |
2381.77 |
114.48 |
@andj1210 |
| 7 |
Instinct MI100 |
32 GB / HBM2 / 4096 bit |
2732.83 |
110.48 |
@firefox42 |
| 8 |
RX 9070 XT |
16 GB / GDDR6 / 256 bit |
5055.19 |
101.27 |
@Hadrianneue |
| 9 |
RX 7800 XT |
16 GB / GDDR6 / 256 bit |
2151.81 |
100.94 |
@olegshulyakov |
| 10 |
Instinct MI50 |
32 GB / HBM2 / 4096 bit |
1057.24 |
98.95 |
@wtarreau |
| 11 |
RX 7900 GRE |
16 GB / GDDR6 / 256 bit |
1456.98 |
96.07 |
@MihaiBojescu |
| 12 |
AI PRO R9700 |
32 GB / GDDR6 / 256 bit |
4443.54 |
93.84 |
@gogich77 |
| 13 |
Instinct MI60 |
32 GB / HBM2 / 4096 bit |
1289.11 |
91.46 |
@Said-Akbar |
| 14 |
RX 6900 XT |
16 GB / GDDR6 / 256 bit |
1889.84 |
88.49 |
@notgood |
| 15 |
Pro VII |
16 GB / HBM2 / 4096 bit |
1064.99 |
87.45 |
@8XXD8 |
| 16 |
RX 6800 XT |
16 GB / GDDR6 / 256 bit |
1447.07 |
83.92 |
@MrLavender |
| 17 |
Pro V620 |
32 GB / GDDR6 / 256 bit |
1803.65 |
74.66 |
@samteezy |
| 18 |
RX 9060 XT |
16 GB / GDDR6 / 256 bit |
1419.67 |
67.58 |
@lcy0321 |
| 19 |
RX 5700 XT |
8 GB / GDDR6 / 256 bit |
354.17 |
67.55 |
@daniandtheweb |
| 20 |
Instinct MI25 |
16 GB / HBM2 / 2048 bit |
409.83 |
63.94 |
@8XXD8 |
| 21 |
AI Max+ 395 |
128 GB / LPDDR5 |
911.36 |
50.01 |
@firefox42 |
| 22 |
RX 7600 XT |
16 GB / GDDR6 / 128 bit |
1099.64 |
48.58 |
@wbruna |
| 23 |
RX Vega 64 |
8 GB / HBM2 / 2048 bit |
240.68 |
48.46 |
@davispuh |
| 24 |
Radeon 8060S |
System Shared / DDR5 |
351.36 |
47.97 |
@hspak |
| 25 |
Radeon 880M |
System Shared / DDR5 |
163.25 |
12.97 |
@Hedede |
ROCm / HIP 后端 — 开启 Flash Attention
| 排名 |
显卡 |
显存配置 |
pp512 t/s |
tg128 t/s |
提交者 |
| 1 |
Instinct MI300X |
192 GB / HBM3 / 8192 bit |
11945.97 |
218.53 |
@yeahdongcn |
| 2 |
RX 7900 XTX |
24 GB / GDDR6 / 384 bit |
3874.25 |
170.12 |
@Diablo-D3 |
| 3 |
Instinct MI210 |
64 GB / HBM2e / 4096 bit |
2571.82 |
130.18 |
@65a |
| 4 |
Pro W7900 |
48 GB / GDDR6 / 384 bit |
3472.86 |
127.43 |
@65a |
| 5 |
RX 7900 XT |
20 GB / GDDR6 / 320 bit |
3261.75 |
112.30 |
@AdamNiederer |
| 6 |
RX 9070 |
16 GB / GDDR6 / 256 bit |
2452.68 |
115.32 |
@andj1210 |
| 7 |
Instinct MI50 |
32 GB / HBM2 / 4096 bit |
1129.43 |
105.82 |
@wtarreau |
| 8 |
Instinct MI100 |
32 GB / HBM2 / 4096 bit |
2755.00 |
104.71 |
@firefox42 |
| 9 |
AI PRO R9700 |
32 GB / GDDR6 / 256 bit |
4773.07 |
97.98 |
@gogich77 |
| 10 |
RX 7900 GRE |
16 GB / GDDR6 / 256 bit |
1598.79 |
97.53 |
@MihaiBojescu |
| 11 |
RX 9070 XT |
16 GB / GDDR6 / 256 bit |
4903.51 |
97.28 |
@Hadrianneue |
| 12 |
RX 7800 XT |
16 GB / GDDR6 / 256 bit |
2304.63 |
95.99 |
@olegshulyakov |
| 13 |
RX 6900 XT |
16 GB / GDDR6 / 256 bit |
1948.31 |
85.04 |
@notgood |
| 14 |
Pro V620 |
32 GB / GDDR6 / 256 bit |
1256.86 |
70.83 |
@samteezy |
| 15 |
RX 9060 XT |
16 GB / GDDR6 / 256 bit |
1479.27 |
65.42 |
@lcy0321 |
| 16 |
RX 5700 XT |
8 GB / GDDR6 / 256 bit |
314.17 |
62.02 |
@daniandtheweb |
| 17 |
AI Max+ 395 |
128 GB / LPDDR5 |
1003.53 |
49.87 |
@firefox42 |
| 18 |
Radeon 8060S |
System Shared / DDR5 |
366.08 |
48.97 |
@hspak |
| 19 |
RX 7600 XT |
16 GB / GDDR6 / 128 bit |
1199.16 |
47.65 |
@wbruna |
| 20 |
RX Vega 64 |
8 GB / HBM2 / 2048 bit |
153.17 |
42.46 |
@davispuh |
| 21 |
Radeon 880M |
System Shared / DDR5 |
213.31 |
16.16 |
@Hedede |
Vulkan 后端 — 无 Flash Attention
| 排名 |
显卡 |
pp512 t/s |
tg128 t/s |
备注 |
| 1 |
Nvidia RTX 5090 |
10381.64 |
263.63 |
coopmat2 |
| 2 |
AMD Radeon RX 7900 XTX |
3531.93 |
191.28 |
|
| 3 |
Nvidia RTX 4090 |
9452.03 |
187.97 |
coopmat2 |
| 4 |
Nvidia RTX 5080 |
7444.99 |
185.10 |
coopmat2 |
| 5 |
Nvidia A100 |
6389.86 |
160.78 |
coopmat2 |
| 6 |
Nvidia RTX 3090 |
4298.97 |
160.13 |
coopmat2 |
| 7 |
Nvidia RTX 4080 Super |
7101.18 |
147.13 |
coopmat2 |
| 8 |
Nvidia RTX A5000 |
3641.55 |
139.89 |
coopmat2 |
| 9 |
Nvidia RTX 3080 |
4287.11 |
139.15 |
coopmat2 |
| 10 |
AMD Radeon RX 9070 XT |
5036.04 |
137.11 |
|
| 11 |
Nvidia RTX 5070 Ti |
6213.63 |
135.63 |
coopmat2 |
| 12 |
AMD Radeon AI Pro R9700 |
4036.04 |
130.19 |
|
| 13 |
Nvidia Tesla V100 |
1391.39 |
129.58 |
|
| 14 |
Nvidia RTX 4070 Ti Super |
6099.18 |
129.45 |
coopmat2 |
| 15 |
AMD Radeon RX 7900 XT |
2941.58 |
123.18 |
|
| 16 |
AMD Radeon RX 9070 |
3164.10 |
119.71 |
|
| 17 |
AMD Radeon RX 7800 XT |
2017.33 |
118.27 |
|
| 18 |
AMD Radeon RX 7900 GRE |
2336.31 |
116.11 |
|
| 19 |
Apple M3 Ultra |
1116.83 |
115.54 |
MoltenVK |
| 20 |
Intel Arc Pro B70 |
3379.00 |
112.02 |
|
| 21 |
Nvidia Titan V |
984.36 |
108.86 |
|
| 22 |
AMD Radeon Pro VII |
1078.54 |
107.82 |
|
| 23 |
AMD Radeon RX 6900 XT |
1837.21 |
104.60 |
|
| 24 |
Intel Arc Pro A60 |
2261.11 |
104.25 |
|
| 25 |
AMD Radeon VII |
1059.14 |
101.19 |
|
| 26 |
AMD Radeon RX 6800 XT |
1752.92 |
100.32 |
|
| 27 |
Nvidia RTX 2080 Ti |
1888.24 |
97.58 |
|
| 28 |
AMD Radeon RX 6800 |
1698.69 |
95.61 |
|
| 29 |
AMD Radeon Pro W6800X Duo |
687.71 |
94.82 |
|
| 30 |
Nvidia RTX 5060 Ti |
3460.92 |
93.51 |
coopmat2 |
| 31 |
Nvidia RTX 4070 |
3179.37 |
92.29 |
|
| 32 |
AMD Radeon Pro W6800X |
510.80 |
86.47 |
MoltenVK |
| 33 |
AMD Radeon RX 6700 XT |
1051.20 |
83.88 |
|
| 34 |
AMD Radeon RX 6750 XT |
1040.58 |
81.98 |
|
| 35 |
AMD Radeon Pro V620 |
1595.32 |
81.78 |
|
| 36 |
Nvidia RTX 3070 |
2113.02 |
78.71 |
|
| 37 |
AMD Radeon Instinct MI60 |
369.26 |
78.16 |
|
| 38 |
Nvidia RTX 3060 |
1815.70 |
75.94 |
coopmat2 |
| 39 |
Apple M4 Max |
724.77 |
75.02 |
|
| 40 |
Nvidia Tesla T10 |
1692.70 |
75.01 |
coopmat2 |
| 41 |
Nvidia RTX A4000 |
2248.14 |
73.74 |
coopmat2 |
| 42 |
AMD Radeon RX 5700 XT |
529.69 |
70.73 |
|
| 43 |
AMD Radeon RX 9060 XT |
2141.67 |
70.54 |
|
| 44 |
Intel Arc B580 |
620.94 |
70.14 |
|
| 45 |
AMD Radeon Pro V540 |
583.88 |
69.64 |
|
| 45 |
Intel Arc Pro B60 |
522.36 |
68.55 |
|
| 46 |
Nvidia GTX 1080 Ti |
540.69 |
64.99 |
|
| 47 |
Nvidia RTX 2070 Super |
1199.13 |
64.64 |
|
| 48 |
Nvidia Tesla P100 |
678.14 |
63.16 |
|
| 49 |
AMD BC-250 |
370.66 |
62.32 |
|
| 50 |
Nvidia Tesla T4 |
600.29 |
60.93 |
|
| 51 |
Nvidia Tesla P40 |
488.06 |
59.36 |
|
| 52 |
Intel Arc A770 |
1073.85 |
52.56 |
|
| 53 |
Intel Arc A770 |
1067.99 |
49.64 |
|
| 54 |
Intel Arc A750 |
858.39 |
46.20 |
|
| 55 |
Nvidia RTX 3060 Mobile |
1059.76 |
49.03 |
|
| 56 |
Intel Arc B570 |
913.95 |
49.64 |
|
| 57 |
AMD Radeon RX 6600 |
761.89 |
50.63 |
|
| 58 |
AMD Radeon RX 6600M |
605.59 |
48.21 |
|
| 59 |
AMD Radeon VII |
1059.14 |
66.25 |
|
| 60 |
Nvidia RTX A2000 |
1245.19 |
45.52 |
|
| 61 |
AMD Radeon Pro W5700 |
449.85 |
68.55 |
|
| 62 |
AMD Radeon RX Vega 64 |
356.08 |
45.73 |
|
| 63 |
Nvidia RTX 2060 Super |
818.46 |
57.72 |
|
| 64 |
Nvidia GTX 1660 Ti Mobile |
511.67 |
56.60 |
|
| 65 |
AMD Ryzen AI Max+ 395 |
1288.96 |
53.59 |
|
| 66 |
Nvidia GB10 |
2737.79 |
52.28 |
coopmat2 |
Vulkan 后端 — 开启 Flash Attention
| 排名 |
显卡 |
pp512 t/s |
tg128 t/s |
备注 |
| 1 |
Nvidia RTX 5090 |
11796.38 |
273.68 |
coopmat2 |
| 2 |
AMD Radeon RX 7900 XTX |
3332.90 |
195.30 |
|
| 3 |
Nvidia RTX 5080 |
8054.59 |
192.17 |
coopmat2 |
| 4 |
Nvidia RTX 4090 |
10830.41 |
190.10 |
coopmat2 |
| 5 |
Nvidia A100 |
7064.40 |
170.56 |
coopmat2 |
| 6 |
Nvidia RTX 3090 |
4732.33 |
162.28 |
coopmat2 |
| 7 |
Nvidia RTX 4080 Super |
8007.37 |
150.20 |
coopmat2 |
| 8 |
Nvidia RTX 3080 |
4913.83 |
145.74 |
coopmat2 |
| 9 |
Nvidia Tesla V100 |
1411.25 |
142.13 |
|
| 10 |
Nvidia RTX A5000 |
4071.22 |
140.43 |
coopmat2 |
| 11 |
AMD Radeon RX 9070 XT |
4911.74 |
138.20 |
|
| 12 |
Nvidia RTX 5070 Ti |
6764.53 |
135.65 |
coopmat2 |
| 13 |
AMD Radeon AI Pro R9700 |
4333.83 |
130.90 |
|
| 14 |
AMD Radeon RX 7900 XT |
3043.93 |
124.20 |
|
| 15 |
AMD Radeon RX 7800 XT |
2094.64 |
119.63 |
|
| 16 |
AMD Radeon RX 9070 |
3277.24 |
119.55 |
|
| 17 |
AMD Radeon RX 7900 GRE |
2402.07 |
116.77 |
|
| 18 |
Apple M3 Ultra |
1115.55 |
115.99 |
MoltenVK |
| 19 |
Intel Arc Pro B70 |
3314.53 |
111.63 |
|
| 20 |
Nvidia Titan V |
792.74 |
109.21 |
|
| 21 |
AMD Radeon Pro VII |
783.94 |
108.45 |
|
| 22 |
AMD Radeon RX 6900 XT |
1761.93 |
106.15 |
|
| 23 |
Nvidia RTX 2080 Ti |
1936.25 |
100.99 |
|
| 24 |
AMD Radeon RX 6800 XT |
1704.79 |
100.50 |
|
| 25 |
AMD Radeon RX 6800 |
1749.46 |
96.65 |
|
| 26 |
Nvidia RTX 5060 Ti |
3912.65 |
97.01 |
coopmat2 |
| 27 |
Nvidia RTX 4070 |
4293.57 |
91.49 |
coopmat2 |
| 28 |
AMD Radeon RX 6750 XT |
997.05 |
82.29 |
|
| 29 |
AMD Radeon RX 6700 XT |
1010.90 |
81.86 |
|
| 30 |
Nvidia RTX 3060 |
2012.88 |
80.59 |
coopmat2 |
| 31 |
AMD Radeon Pro V620 |
1556.31 |
79.24 |
|
| 32 |
Nvidia RTX A4000 |
2482.74 |
76.07 |
coopmat2 |
| 33 |
Nvidia Tesla T10 |
1840.14 |
76.05 |
coopmat2 |
| 34 |
AMD Radeon RX 5700 XT |
538.31 |
74.43 |
|
| 35 |
Intel Arc B580 |
419.49 |
72.00 |
|
| 36 |
Apple M4 Max |
727.15 |
71.58 |
|
| 37 |
AMD Radeon RX 9060 XT |
2185.67 |
70.85 |
|
| 38 |
AMD Radeon RX 6750 GRE |
1014.54 |
69.59 |
|
| 39 |
AMD Radeon RX 7600 XT |
871.78 |
53.62 |
|
| 40 |
Intel Arc A770 |
949.80 |
48.98 |
|
| 41 |
Nvidia Tesla P40 |
523.68 |
48.15 |
|
| 42 |
Intel Arc B570 |
859.59 |
47.85 |
|
| 43 |
Nvidia Tesla T4 |
626.79 |
45.84 |
|
| 44 |
AMD Instinct MI50 |
805.93 |
43.67 |
|
Apple Silicon 参考
Llama 2 7B, Q4_0, no FA
| 芯片 |
显存 |
pp512 t/s |
tg128 t/s |
| M2 Ultra (76 GPU) |
192 GB / Unified |
1401.85 |
94.27 |
| M3 Max (40 GPU) |
128 GB / Unified |
690.99 |
65.85 |
| M1 Pro (16 GPU) |
16 GB / Unified |
266.25 |
36.41 |
Llama 2 7B, Q4_0, FA enabled
| 芯片 |
显存 |
pp512 t/s |
tg128 t/s |
| M2 Ultra (76 GPU) |
192 GB / Unified |
1561.35 |
109.41 |
| M3 Max (40 GPU) |
128 GB / Unified |
794.26 |
75.24 |
| M1 Pro (16 GPU) |
16 GB / Unified |
302.14 |
22.34 |