本地 AI 部署指南：Ollama · llama + MTP · Open WebUI · Qwenpaw · llama天梯

杯子 · 2026-3-6 11:00:55

适用人群：NAS 用户、本地 AI 新手
操作系统：飞牛 OS（fnOS）
最后更新：2026 年 6 月 23 日

📋 目录

背景说明
方案对比
双卡配置说明
部署与配置
- 4.1 Docker 公用配置
- 4.2 手动配置 Ollama + Open WebUI 部署
- 4.3 llama.cpp 部署配置（单卡 / 双卡通用）
- 4.4 Qwenpaw Compose 配置
模型实测与性能分析
新主机性能实测（6750 GRE + MI50 双卡）
使用方法与常见问题
总结与建议
参考资料
llama性能天梯

一、背景说明

两台设备，一台铭凡 N5 的 NAS 主机，硬件配置如下：

项目	规格
CPU	AMD R7 255
显卡	Radeon 780M（板载集成，无独立显卡）
内存	升级至 48GB
存储	NAS 大容量硬盘

一台自己配的台式机（2026 年 6 月新增）：

项目	规格
CPU	AMD Ryzen 9 7900X
主板	铭瑄 B850 AIGA
内存	32GB
独显	AMD Radeon RX 6750 GRE 12GB（主卡）
计算卡	AMD Radeon Instinct MI50 16GB（副卡）
电源	1000W
操作系统	飞牛 OS（fnOS）
后端	llama Vulkan + MTP 投机解码

💡 关键说明：AMD 已停止对 MI50 的 ROCm 支持，新版镜像无法启用 LCM。目前 Vulkan 是唯一可用的最佳方案。

二、方案对比

方案	优点	缺点
方案 1：飞牛原生 ollama 套件	应用市场一键安装，ollama + openwebui 组合	版本更新没有 ollama 官方快
方案 2：Docker ollama + 飞牛市场 lobechat	lobechat 界面简洁	lobechat 版本较低，后续维护转向 Windows
方案 3：Docker ollama + openwebui	版本最新，功能最全，支持模型管理、多轮对话、知识库	需手动配置 Docker
方案 4：Docker llama.cpp + qwenpaw	推理速度更快，模型精度可选范围更广，支持 GGUF 模型直下	部署复杂，单次仅能运行一个模型

三、双卡配置说明

💡 双卡架构：RX 6750 GRE 12GB（主卡，50% 计算）+ MI50 16GB（副卡，50% 计算），按层拆分部署大模型。

⚠️ 兼容性：AMD 已停止对 MI50 的 ROCm 支持，新版的镜像无法启用该模式。使用 vulkan 模式两块同型号显卡可正常启动，效率可能比 rocm 略低。

四、部署与配置

如果使用 docker 部署，建议都使用 compose，一开始我也是手动配置，但是容器经常有各种各样的问题，使用 compose 效率要高的多，一次填写可以重复构建。

4.1 Docker 公用配置

# 以下配置适用于所有 Docker 容器
environment:
  - TZ=Asia/Shanghai                    # 设置容器时区为上海
volumes:
  - /etc/localtime:/etc/localtime:ro    # 挂载宿主机时区文件（只读）
  - /etc/timezone:/etc/timezone:ro      # 挂载时区名称（部分软件依赖此文件）

4.2 手动配置 Ollama + Open WebUI 部署

1. 下载 Docker 镜像

ollama：在飞牛 Docker 镜像仓库搜索 ollama，选择官方源 ollama/ollama 下载 latest 版本
openwebui：通过本地镜像 → 添加镜像，手动拉取 ghcr.io/open-webui/open-webui:main
ROCm 版本（可选）：如需 AMD GPU 专用优化版，手动拉取 ollama/ollama:x.xx.xx-rocm

💡 ROCm 与 Vulkan 对比：ROCm 是 AMD 原生 GPU 计算平台，Vulkan 是跨平台方案。Radeon 780M 两种均可使用

2. 配置 Ollama 容器

配置项	设置值	说明
开机自动启动	✅ 勾选	保证长期运行
端口映射	11434	确保未被占用
存储路径	/root/.ollama/（自定义）	建议选大容量磁盘
网络模式	host	ollama 需使用 host 模式
环境变量	OLLAMA_ORIGINS=*	允许所有来源访问（必填）
环境变量	OLLAMA_VULKAN=1	启用 Vulkan 后端

⚠️ Vulkan 与 ROCm 二选一：

使用 Vulkan：保留 OLLAMA_VULKAN=1，删除 ROCm 相关变量

使用 ROCm：保留 HSA_OVERRIDE_GFX_VERSION=11.0.0，删除 OLLAMA_VULKAN=1

本教程显卡为 Radeon 780M，经测试 HSA_OVERRIDE_GFX_VERSION=11.0.0 可用。别的显卡请参考 AMD 官方 hip 的官方网页。

3. 配置 Open WebUI 容器

配置项	设置值	说明
端口映射	3000:8080	宿主机 3000 端口映射到容器 8080
存储路径	/root/open-webui（自定义）	自定义映射路径，不与其他容器共用
网络模式	bridge	标准桥接模式

4.3 llama.cpp 部署配置（单卡 / 双卡通用）

一份 compose 兼容单卡和双卡，显卡拆分部分已注释，按需启用。

services:
  # 服务一：llama（主推理服务）
  llama:
    image: ghcr.io/ggml-org/llama.cpp:server-vulkan-b9737
    container_name: llama
    restart: unless-stopped
    ports:
      - 8082:8082/tcp
    volumes:
      - /vol1/1000/docker/llama/models:/models
    devices: 
      - /dev/kfd:/dev/kfd   # ROCm 内核驱动设备，必需
      - /dev/dri:/dev/dri   # 直接渲染设备，vulkan 必需
    group_add:
      - video
    networks:
      - localNetwork
   
    environment:
      #- LLAMA_AR**ODEL=/models/xxxxx.gguf  #x.gguf就是模型的名称
      - LLAMA_AR**ODEL=/models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf

      # --- Qwen 专属采样策略 (严谨逻辑，防重复) ---
      - LLAMA_ARG_TEMP=0.8
      - LLAMA_ARG_TOP_P=0.97
      - LLAMA_ARG_TOP_K=40
      - LLAMA_ARG_REPEAT_PENALTY=1.1

      # vulkan 专用优化配置
      - GGML_VULKAN=1                    # 强制启用 Vulkan
      - GGML_VK_VISIBLE_DEVICES=1,2      # 只认 6750 GRE + MI50，完全忽略核显，单卡请注释掉，就是前面加#
      - GGML_VK_FORCE_MMVQ=1             #MMVQ 是多行矩阵向量量化乘，心里觉得有效
  
      # 缓存优化配置
      - LLAMA_ARG_CTX_SIZE=262144  # 不知道为什么我的机器只能识别一半的上下文，填128k就显示64k。。。
      - LLAMA_ARG_BATCH=2048  # 逻辑批，默认是 512 或 1024，针对长文本加大
      - LLAMA_ARG_UBATCH=1024    # 物理批大小，配合 2048 的逻辑批
      - LLAMA_ARG_FLASH_ATTN=1     # 集中模型注意力，vulkan 有效
      #- LLAMA_ARG_N_GPU_LAYERS=99  # 全模型层上 GPU，确保大上下文
      #- LLAMA_ARG_N_CPU_MOE=22   # 混合状态下可以把部分卸载到 cpu，单显卡显存不够的情况下，似乎这个22最合适。
      - LLAMA_ARG_CACHE_TYPE_K=q8_0 # KV Cache K 量化，节省显存
      - LLAMA_ARG_CACHE_TYPE_V=q4_0

      # 线程优化
      #- LLAMA_ARG_SLOTS=2         # 智能体并发槽位数量
      - LLAMA_ARG_N_PARALLEL=2       # 每个槽位线程数量
  
      # 重复惩罚
      - LLAMA_ARG_DRY_MULTIPLIER=1.5     # DRY 重复惩罚乘数（1 为不惩罚）
      - LLAMA_ARG_DRY_ALLOWED_LENGTH=4     # 惩罚生效的阈值长度（Token 数）
      - LLAMA_ARG_DRY_PENALTY_LAST_N=4096   # 重复惩罚的检测窗口（倒数 N 个 Token）
  
      # 投机解码配置
      - LLAMA_ARG_SPEC_TYPE=draft-mtp    # 开启 MTP 投机解码
      - LLAMA_ARG_SPEC_HEURISTIC=1      # 启用动态投机解码
      - LLAMA_ARG_SPEC_DRAFT_N_MAX=2     # 最多猜 2 个，超过这个2会影响速度
      - LLAMA_ARG_SPEC_DRAFT_N_MIN=1     # 最少猜 1 个

      - LLAMA_ARG_PORT=8082
      - LLAMA_ARG_HOST=0.0.0.0
  
      # 显卡拆分配置（双卡用户取消注释，单卡用户保持注释）
      - LLAMA_ARG_SPLIT_MODE=layer      # 按层拆分
      - LLAMA_ARG_TENSOR_SPLIT=4,6     # 显存分配
      - LLAMA_AR**AIN_GPU=0          # 主显卡
  
      # 其他优化
      - LLAMA_ARG_NO_MMAP=1        # 内存全量读取，避免使用磁盘缓存，但是要占至少8GB内存  
      - LLAMA_ARG_CTX_CHECKPOINTS=64  # 增加检查点数量 
      - LLAMA_ARG_CONT_BATCHING=1      # 开启连续批处理

networks:
  localNetwork:
    external: true
    driver: bridge

💡 单卡使用：保持显卡拆分部分注释状态即可，无需修改。

💡 双卡使用：取消显卡拆分部分的注释，并根据实际显存分配调整 TENSOR_SPLIT 比例。

4.4 Qwenpaw Compose 配置

以下配置用于部署 qwenpaw（AI 助手服务），包含私有版和联网版两个实例：

services:
  # 服务一：qwenpaw-solo（私有版，不联网）
  qwenpaw-solo:
    container_name: qwenpaw-solo
    image: agentscope/qwenpaw:latest
    restart: always

    ports:
      - 8089:8088/tcp

    environment:
      - TZ=Asia/Shanghai
      - QWENPAW_AUTH_ENABLED=true

    volumes:
      - /vol5/1000/Dockers/qwenpaw-solo/data:/app/working
      - /vol5/1000/Dockers/qwenpaw-solo/secrets:/app/working.secret
      - /vol5/1000/Dockers/qwenpaw-solo/backups:/app/working.backups
      - /etc/localtime:/etc/localtime:ro
      - /etc/timezone:/etc/timezone:ro

    networks:
      - localNetwork

  # 服务二：qwenpaw（联网版，可访问互联网）
  qwenpaw:
    container_name: qwenpaw
    image: agentscope/qwenpaw:latest
    restart: always

    ports:
      - 8088:8088/tcp

    environment:
      - TZ=Asia/Shanghai
      - QWENPAW_AUTH_ENABLED=true

    volumes:
      - /vol5/1000/Dockers/qwenpaw/data:/app/working
      - /vol5/1000/Dockers/qwenpaw/secrets:/app/working.secret
      - /vol5/1000/Dockers/qwenpaw/backups:/app/working.backups
      - /etc/localtime:/etc/localtime:ro
      - /etc/timezone:/etc/timezone:ro

    networks:
      - openNetwork

networks:
  localNetwork:
    external: true
    driver: bridge

  openNetwork:
    external: true
    driver: bridge

五、模型实测与性能分析

硬件环境：Radeon 780M + 48GB 内存 + Vulkan

5.1 Ollama 模型表现

模型	速度（token/s）	评价
qwen3.5-9b-q4	8-12	够用，智商一般
qwen3.5-27b-q4	3-5	很慢，但智商很好
qwen3.5-35b-a3b-q8	8-12	占用 36GB 内存，智商在线（q4 无法通过部分测试，q8 可以）
glm-4.7-flash-q8	10-12	速度快，但存在逻辑错误（如"4 月有 31 天"）
lfm2-24b	20+	极快，但无思考模式

💡 千问系列模型思考时间较长、输出偏啰嗦；GLM4.7 速度优秀但偶尔出现常识性错误。

5.2 llama.cpp 模型表现

感觉 llama.cpp 推理速度优于 ollama，模型精度选择更多，支持魔塔社区 GGUF 模型直下。

模型	速度（token/s）	备注
qwen3.5-27b-q4	4-5	-
qwen3.5-9b-q4	8-12	-
gemma26b-a4b-**-iq	19-20	速度优秀
qwen3.6-35b-a3b-**-iq	20-22	流畅对话
qwen3.6-35b-a3b-**-mtp-iq	23-34	极不稳定，而且输出不线性，但是很快。

20+ token/s 的对话速度已足够流畅，阅读速度跟不上输出速度。

六、新主机性能实测（6750 GRE + MI50 双卡）

硬件环境：Radeon RX 6750 GRE 12GB + MI50 16GB + 32GB 内存 + Vulkan + MTP

💡 关键结论：

35B ** MTP 模型在 6750GRE + MI50 组合下稳定 55+ tok/s，对话体验流畅

27B 的 MTP-q4km 模型仅需 15.7GB 显存，速度 30+ tok/s，适合显存紧张的场景

双卡按层拆分后，双卡还是有点用处，主要是可以增加显存。

七、使用方法与常见问题

7.1 局域网访问

在浏览器中输入 http://<飞牛 NAS IP>:3000 即可打开 Open WebUI 界面。

7.2 通过 fnconnect 访问

打开飞牛 fnconnect → Docker → 容器列表 → 点击 ollama 容器行右侧的端口下拉框（显示 3000:8080），点击即可打开。

7.3 使用 qwenpaw 链接 llama 或者 ollama

进去 qwenpaw，点击左侧的模型，ollama 默认存在，直接输入 ollama 的 docker 名称 + 端口号就行，比如名称就是 ollama，那地址就输入 http://ollama:11434，就可以了。llama 需要在模型页面右上角点击新增。其余一样。

7.4 常见问题

Q：Open WebUI 页面无法打开

A：大概率是模型下载失败导致。找到嵌入模型配置项，删除后半部分文字（不要删除整个字段），即可正常打开界面。

八、总结与建议

优先级	建议	说明
1	新手入门	直接使用飞牛原生 ollama 套件，最简单
2	追求功能	方案 3（ollama + openwebui），持续维护中
3	追求性能	方案 4（llama.cpp + Vulkan），单卡 20+ token/s 流畅体验
4	硬件升级	铭凡 N5（48GB 内存）已足够运行 35B 模型；新主机（32GB 内存）需控制模型大小。若未来升级，建议关注 16GB 以上显存的独立显卡，但需注意 NAS 平台驱动兼容性
5	使用场景	日常文字编写、文档整理、信息检索、知识库管理、邮件处理等完全够用。编程任务未测试，如有需求建议搭配更高性能硬件

九、参考资料

资源	链接
ollama 官方文档	https://ollama.com
openwebui 官方仓库	https://github.com/open-webui/open-webui
llama.cpp 官方仓库	https://github.com/ggml-org/llama.cpp
AMD ROCm 文档	https://rocm.docs.amd.com
魔塔社区	https://modelscope.cn

免责声明：本文基于个人实际测试经验编写，仅供参考。不同硬件配置可能导致结果差异，请根据自身情况调整配置。

llama.cpp GPU 性能天梯

数据来源：knightli.com 整理自 llama.cpp GitHub Discussions Scoreboard

测试模型： Llama 2 7B
测试量化： Q4_0
测试指标：

pp512 t/s = 处理 512 个 prompt token 的吞吐量

tg128 t/s = 连续生成 128 个 token 的速度（日常体验最相关）

CUDA 后端 — 无 Flash Attention

排名	显卡	显存配置	pp512 t/s	tg128 t/s	提交者
1	RTX 5090	32 GB / GDDR7 / 512 bit	14073.41	290.02	@totaldev
2	RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63	274.20	@Tom94
3	H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34	267.81	@Hedede
4	A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53	190.88	@Hedede
5	RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86	189.33	@autonomous-AI-lab
6	RTX 4090	24 GB / GDDR6X / 384 bit	11992.70	186.21	@lhl
7	RTX 5080	16 GB / GDDR7 / 256 bit	8297.36	181.99	@Hedede
8	RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38	176.85	@TinyServal
9	RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23	176.07	@Hedede
10	RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49	171.19	@slaren
11	RTX 3090	24 GB / GDDR6X / 384 bit	5174.69	158.16	@m18coppola
12	L40	48 GB / GDDR6 / 384 bit	8870.49	152.01	@Hedede
13	RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15	148.33	@zacharyarnaise
14	RTX 4080	16 GB / GDDR6X / 256 bit	8031.64	142.49	@Ristovski
15	RTX 3080	10 GB / GDDR6X / 320 bit	5013.86	139.65	@slaren
16	RTX A6000	48 GB / GDDR6 / 384 bit	4913.93	138.73	@Hedede
17	RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53	132.26	@Ristovski
18	RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83	131.66	@Hedede
19	RTX A5000	24 GB / GDDR6 / 384 bit	4028.16	130.07	@Hedede
20	Tesla V100	32 GB / HBM2 / 4096 bit	3042.64	129.08	@Hedede
21	RTX 5070	12 GB / GDDR7 / 192 bit	5184.75	127.54	@Spyro000
22	A40	48 GB / GDDR6 / 384 bit	4609.01	124.11	@Hedede
23	A30	24 GB / HBM2e / 3072 bit	2767.10	124.81	@Hedede
24	Titan V	12 GB / HBM2 / 3072 bit	2617.46	108.79	@Hedede
25	RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66	107.51	@ariya
26	Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18	102.77	@Hedede
27	Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95	102.68	@Hedede
28	RTX A4500	20 GB / GDDR6 / 320 bit	2827.20	97.32	@aleksyx
29	RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25	90.94	@mike-llamacpp
30	RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34	88.06	@phstudy
31	RTX A4000	16 GB / GDDR6 / 256 bit	2496.09	84.21	@TinyServal
32	RTX 3060	12 GB / GDDR6 / 192 bit	2181.31	75.31	@QuantiusBenignus
33	Titan Xp	12 GB / GDDR5X / 384 bit	1104.80	73.13	@Hedede
34	Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1519.83	65.79	@Hedede
35	RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3604.30	63.23	@mike-llamacpp
36	Tesla P100	16 GB / HBM2 / 4096 bit	760.80	58.35	@Hedede
37	GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1056.45	57.11	@ariya
38	RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2688.97	54.69	@sdwolfz
39	RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1439.67	57.74	@ggerganov
40	Tesla P40	24 GB / GDDR5 / 384 bit	1007.42	54.74	@m18coppola
41	RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1966.07	49.15	@DigitalRudeness
42	Tesla T4	16 GB / GDDR6 / 256 bit	1219.06	46.38	@pt13762104
43	GTX 1660	6 GB / GDDR5 / 192 bit	154.45	41.43	@ariya
44	Tesla M40	24 GB / GDDR5 / 384 bit	282.65	38.04	@Hedede
45	GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52	37.87	@pebaryan
46	Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96	35.88	@TinyServal
47	Tesla P4	8 GB / GDDR5 / 256 bit	529.53	33.12	@m18coppola
48	P106-100	6 GB / GDDR5 / 192 bit	438.49	30.64	@pebaryan
49	GTX 1060	6 GB / GDDR5 / 192 bit	446.19	28.18	@pebaryan
50	Quadro T1000	4 GB / GDDR5 / 128 bit	27.46	27.46	@hanabu
51	Quadro P2000	5 GB / GDDR5 / 160 bit	311.55	23.76	@TinyServal
52	Tesla K80	12 GB / GDDR5 / 384 bit	133.36	14.27	@pebaryan
53	Quadro P1000	4 GB / GDDR5 / 128 bit	173.82	13.65	@aleksyx

CUDA 后端 — 开启 Flash Attention

排名	显卡	显存配置	pp512 t/s	tg128 t/s	提交者
1	RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98	281.11	@Tom94
2	RTX 5090	32 GB / GDDR7 / 512 bit	14970.15	300.40	@totaldev
3	H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29	280.74	@Hedede
4	A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96	200.90	@Hedede
5	RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97	191.57	@autonomous-AI-lab
6	RTX 4090	24 GB / GDDR6X / 384 bit	14770.63	188.96	@lhl
7	RTX 5080	16 GB / GDDR7 / 256 bit	9487.70	184.68	@Hedede
8	RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56	182.43	@TinyServal
9	RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85	179.47	@Hedede
10	RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01	172.26	@slaren
11	RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66	168.90	@Hedede
12	RTX 3090	24 GB / GDDR6X / 384 bit	5560.06	161.89	@m18coppola
13	L40	48 GB / GDDR6 / 384 bit	10097.64	153.76	@Hedede
14	RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01	147.48	@zacharyarnaise
15	RTX A6000	48 GB / GDDR6 / 384 bit	5662.39	144.87	@Hedede
16	RTX 4080	16 GB / GDDR6X / 256 bit	9205.93	143.47	@Ristovski
17	RTX 3080	10 GB / GDDR6X / 320 bit	5569.56	139.95	@slaren
18	RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44	136.38	@Hedede
19	RTX A5000	24 GB / GDDR6 / 384 bit	4552.15	135.83	@Hedede
20	Tesla V100	32 GB / HBM2 / 4096 bit	2973.78	134.76	@Hedede
21	RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32	132.85	@Ristovski
22	A30	24 GB / HBM2e / 3072 bit	3068.72	131.93	@Hedede
23	RTX 5070	12 GB / GDDR7 / 192 bit	5783.44	128.21	@Spyro000
24	A40	48 GB / GDDR6 / 384 bit	5256.38	126.24	@Hedede
25	Titan V	12 GB / HBM2 / 3072 bit	2481.25	112.17	@Hedede
26	RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61	109.17	@ariya
27	Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96	104.38	@Hedede
28	Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35	103.63	@Hedede
29	RTX A4500	20 GB / GDDR6 / 320 bit	3453.10	103.00	@aleksyx
30	RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53	93.46	@mike-llamacpp
31	RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29	87.71	@phstudy
32	RTX A4000	16 GB / GDDR6 / 256 bit	2807.83	85.17	@TinyServal
33	RTX 3060	12 GB / GDDR6 / 192 bit	2407.67	76.92	@QuantiusBenignus
34	Titan Xp	12 GB / GDDR5X / 384 bit	1218.12	73.84	@Hedede
35	Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80	67.62	@Hedede
36	RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45	64.03	@mike-llamacpp
37	Tesla P100	16 GB / HBM2 / 4096 bit	787.36	61.99	@Hedede
38	GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14	61.38	@ariya
39	RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86	61.37	@sdwolfz
40	RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77	61.13	@ggerganov
41	DGX Spark	128 GB / LPDDR5x	3661.37	56.74	@ggerganov
42	Tesla P40	24 GB / GDDR5 / 384 bit	1079.66	53.73	@m18coppola
43	RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14	50.71	@DigitalRudeness
44	Tesla T4	16 GB / GDDR6 / 256 bit	1309.73	44.03	@pt13762104
45	GTX 1660	6 GB / GDDR5 / 192 bit	154.45	41.43	@ariya
46	Tesla M40	24 GB / GDDR5 / 384 bit	290.17	39.98	@Hedede
47	GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52	37.87	@pebaryan
48	Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96	35.88	@TinyServal
49	Tesla P4	8 GB / GDDR5 / 256 bit	529.53	33.12	@m18coppola
50	P106-100	6 GB / GDDR5 / 192 bit	438.49	30.64	@pebaryan
51	GTX 1060	6 GB / GDDR5 / 192 bit	446.19	28.18	@pebaryan
52	Tesla K80	12 GB / GDDR5 / 384 bit	133.36	14.27	@pebaryan
53	Quadro P1000	4 GB / GDDR5 / 128 bit	173.82	13.65	@aleksyx

ROCm / HIP 后端 — 无 Flash Attention

排名	显卡	显存配置	pp512 t/s	tg128 t/s	提交者
1	Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40	232.92	@yeahdongcn
2	RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27	167.11	@Diablo-D3
3	Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22	124.51	@65a
4	Pro W7900	48 GB / GDDR6 / 384 bit	3213.17	121.18	@65a
5	RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38	116.15	@AdamNiederer
6	RX 9070	16 GB / GDDR6 / 256 bit	2381.77	114.48	@andj1210
7	Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83	110.48	@firefox42
8	RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19	101.27	@Hadrianneue
9	RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81	100.94	@olegshulyakov
10	Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24	98.95	@wtarreau
11	RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98	96.07	@MihaiBojescu
12	AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54	93.84	@gogich77
13	Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11	91.46	@Said-Akbar
14	RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84	88.49	@notgood
15	Pro VII	16 GB / HBM2 / 4096 bit	1064.99	87.45	@8XXD8
16	RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07	83.92	@MrLavender
17	Pro V620	32 GB / GDDR6 / 256 bit	1803.65	74.66	@samteezy
18	RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67	67.58	@lcy0321
19	RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17	67.55	@daniandtheweb
20	Instinct MI25	16 GB / HBM2 / 2048 bit	409.83	63.94	@8XXD8
21	AI Max+ 395	128 GB / LPDDR5	911.36	50.01	@firefox42
22	RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64	48.58	@wbruna
23	RX Vega 64	8 GB / HBM2 / 2048 bit	240.68	48.46	@davispuh
24	Radeon 8060S	System Shared / DDR5	351.36	47.97	@hspak
25	Radeon 880M	System Shared / DDR5	163.25	12.97	@Hedede

ROCm / HIP 后端 — 开启 Flash Attention

排名	显卡	显存配置	pp512 t/s	tg128 t/s	提交者
1	Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97	218.53	@yeahdongcn
2	RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25	170.12	@Diablo-D3
3	Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82	130.18	@65a
4	Pro W7900	48 GB / GDDR6 / 384 bit	3472.86	127.43	@65a
5	RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75	112.30	@AdamNiederer
6	RX 9070	16 GB / GDDR6 / 256 bit	2452.68	115.32	@andj1210
7	Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43	105.82	@wtarreau
8	Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00	104.71	@firefox42
9	AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07	97.98	@gogich77
10	RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79	97.53	@MihaiBojescu
11	RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51	97.28	@Hadrianneue
12	RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63	95.99	@olegshulyakov
13	RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31	85.04	@notgood
14	Pro V620	32 GB / GDDR6 / 256 bit	1256.86	70.83	@samteezy
15	RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27	65.42	@lcy0321
16	RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17	62.02	@daniandtheweb
17	AI Max+ 395	128 GB / LPDDR5	1003.53	49.87	@firefox42
18	Radeon 8060S	System Shared / DDR5	366.08	48.97	@hspak
19	RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16	47.65	@wbruna
20	RX Vega 64	8 GB / HBM2 / 2048 bit	153.17	42.46	@davispuh
21	Radeon 880M	System Shared / DDR5	213.31	16.16	@Hedede

Vulkan 后端 — 无 Flash Attention

排名	显卡	pp512 t/s	tg128 t/s	备注
1	Nvidia RTX 5090	10381.64	263.63	coopmat2
2	AMD Radeon RX 7900 XTX	3531.93	191.28
3	Nvidia RTX 4090	9452.03	187.97	coopmat2
4	Nvidia RTX 5080	7444.99	185.10	coopmat2
5	Nvidia A100	6389.86	160.78	coopmat2
6	Nvidia RTX 3090	4298.97	160.13	coopmat2
7	Nvidia RTX 4080 Super	7101.18	147.13	coopmat2
8	Nvidia RTX A5000	3641.55	139.89	coopmat2
9	Nvidia RTX 3080	4287.11	139.15	coopmat2
10	AMD Radeon RX 9070 XT	5036.04	137.11
11	Nvidia RTX 5070 Ti	6213.63	135.63	coopmat2
12	AMD Radeon AI Pro R9700	4036.04	130.19
13	Nvidia Tesla V100	1391.39	129.58
14	Nvidia RTX 4070 Ti Super	6099.18	129.45	coopmat2
15	AMD Radeon RX 7900 XT	2941.58	123.18
16	AMD Radeon RX 9070	3164.10	119.71
17	AMD Radeon RX 7800 XT	2017.33	118.27
18	AMD Radeon RX 7900 GRE	2336.31	116.11
19	Apple M3 Ultra	1116.83	115.54	MoltenVK
20	Intel Arc Pro B70	3379.00	112.02
21	Nvidia Titan V	984.36	108.86
22	AMD Radeon Pro VII	1078.54	107.82
23	AMD Radeon RX 6900 XT	1837.21	104.60
24	Intel Arc Pro A60	2261.11	104.25
25	AMD Radeon VII	1059.14	101.19
26	AMD Radeon RX 6800 XT	1752.92	100.32
27	Nvidia RTX 2080 Ti	1888.24	97.58
28	AMD Radeon RX 6800	1698.69	95.61
29	AMD Radeon Pro W6800X Duo	687.71	94.82
30	Nvidia RTX 5060 Ti	3460.92	93.51	coopmat2
31	Nvidia RTX 4070	3179.37	92.29
32	AMD Radeon Pro W6800X	510.80	86.47	MoltenVK
33	AMD Radeon RX 6700 XT	1051.20	83.88
34	AMD Radeon RX 6750 XT	1040.58	81.98
35	AMD Radeon Pro V620	1595.32	81.78
36	Nvidia RTX 3070	2113.02	78.71
37	AMD Radeon Instinct MI60	369.26	78.16
38	Nvidia RTX 3060	1815.70	75.94	coopmat2
39	Apple M4 Max	724.77	75.02
40	Nvidia Tesla T10	1692.70	75.01	coopmat2
41	Nvidia RTX A4000	2248.14	73.74	coopmat2
42	AMD Radeon RX 5700 XT	529.69	70.73
43	AMD Radeon RX 9060 XT	2141.67	70.54
44	Intel Arc B580	620.94	70.14
45	AMD Radeon Pro V540	583.88	69.64
45	Intel Arc Pro B60	522.36	68.55
46	Nvidia GTX 1080 Ti	540.69	64.99
47	Nvidia RTX 2070 Super	1199.13	64.64
48	Nvidia Tesla P100	678.14	63.16
49	AMD BC-250	370.66	62.32
50	Nvidia Tesla T4	600.29	60.93
51	Nvidia Tesla P40	488.06	59.36
52	Intel Arc A770	1073.85	52.56
53	Intel Arc A770	1067.99	49.64
54	Intel Arc A750	858.39	46.20
55	Nvidia RTX 3060 Mobile	1059.76	49.03
56	Intel Arc B570	913.95	49.64
57	AMD Radeon RX 6600	761.89	50.63
58	AMD Radeon RX 6600M	605.59	48.21
59	AMD Radeon VII	1059.14	66.25
60	Nvidia RTX A2000	1245.19	45.52
61	AMD Radeon Pro W5700	449.85	68.55
62	AMD Radeon RX Vega 64	356.08	45.73
63	Nvidia RTX 2060 Super	818.46	57.72
64	Nvidia GTX 1660 Ti Mobile	511.67	56.60
65	AMD Ryzen AI Max+ 395	1288.96	53.59
66	Nvidia GB10	2737.79	52.28	coopmat2

Vulkan 后端 — 开启 Flash Attention

排名	显卡	pp512 t/s	tg128 t/s	备注
1	Nvidia RTX 5090	11796.38	273.68	coopmat2
2	AMD Radeon RX 7900 XTX	3332.90	195.30
3	Nvidia RTX 5080	8054.59	192.17	coopmat2
4	Nvidia RTX 4090	10830.41	190.10	coopmat2
5	Nvidia A100	7064.40	170.56	coopmat2
6	Nvidia RTX 3090	4732.33	162.28	coopmat2
7	Nvidia RTX 4080 Super	8007.37	150.20	coopmat2
8	Nvidia RTX 3080	4913.83	145.74	coopmat2
9	Nvidia Tesla V100	1411.25	142.13
10	Nvidia RTX A5000	4071.22	140.43	coopmat2
11	AMD Radeon RX 9070 XT	4911.74	138.20
12	Nvidia RTX 5070 Ti	6764.53	135.65	coopmat2
13	AMD Radeon AI Pro R9700	4333.83	130.90
14	AMD Radeon RX 7900 XT	3043.93	124.20
15	AMD Radeon RX 7800 XT	2094.64	119.63
16	AMD Radeon RX 9070	3277.24	119.55
17	AMD Radeon RX 7900 GRE	2402.07	116.77
18	Apple M3 Ultra	1115.55	115.99	MoltenVK
19	Intel Arc Pro B70	3314.53	111.63
20	Nvidia Titan V	792.74	109.21
21	AMD Radeon Pro VII	783.94	108.45
22	AMD Radeon RX 6900 XT	1761.93	106.15
23	Nvidia RTX 2080 Ti	1936.25	100.99
24	AMD Radeon RX 6800 XT	1704.79	100.50
25	AMD Radeon RX 6800	1749.46	96.65
26	Nvidia RTX 5060 Ti	3912.65	97.01	coopmat2
27	Nvidia RTX 4070	4293.57	91.49	coopmat2
28	AMD Radeon RX 6750 XT	997.05	82.29
29	AMD Radeon RX 6700 XT	1010.90	81.86
30	Nvidia RTX 3060	2012.88	80.59	coopmat2
31	AMD Radeon Pro V620	1556.31	79.24
32	Nvidia RTX A4000	2482.74	76.07	coopmat2
33	Nvidia Tesla T10	1840.14	76.05	coopmat2
34	AMD Radeon RX 5700 XT	538.31	74.43
35	Intel Arc B580	419.49	72.00
36	Apple M4 Max	727.15	71.58
37	AMD Radeon RX 9060 XT	2185.67	70.85
38	AMD Radeon RX 6750 GRE	1014.54	69.59
39	AMD Radeon RX 7600 XT	871.78	53.62
40	Intel Arc A770	949.80	48.98
41	Nvidia Tesla P40	523.68	48.15
42	Intel Arc B570	859.59	47.85
43	Nvidia Tesla T4	626.79	45.84
44	AMD Instinct MI50	805.93	43.67

Apple Silicon 参考

Llama 2 7B, Q4_0, no FA

芯片	显存	pp512 t/s	tg128 t/s
M2 Ultra (76 GPU)	192 GB / Unified	1401.85	94.27
M3 Max (40 GPU)	128 GB / Unified	690.99	65.85
M1 Pro (16 GPU)	16 GB / Unified	266.25	36.41

Llama 2 7B, Q4_0, FA enabled

芯片	显存	pp512 t/s	tg128 t/s
M2 Ultra (76 GPU)	192 GB / Unified	1561.35	109.41
M3 Max (40 GPU)	128 GB / Unified	794.26	75.24
M1 Pro (16 GPU)	16 GB / Unified	302.14	22.34

zhu3351469 · 2026-3-26 23:14:00

厉害厉害我的rx580也可以跑起来了用的Vulkan 运算能到22t

杯子 · 2026-3-27 11:10:09

zhu3351469 发表于 2026-3-26 23:14
厉害厉害我的rx580也可以跑起来了用的Vulkan 运算能到22t

我试了好多遍，我的机器都不完全支持rocm特性，所以只能使用vulkan跑，但效率也可以，比cpu高不少，我看过b站的评测，完全支持rocm的硬件跑起来确实比vulkan快，这个就没办法了。等过段时间我买一块intel B50试试。

jhs0719 · 2026-4-6 10:43:57

楼主最后用的什么模型呢

杯子 · 2026-4-6 20:00:55

jhs0719 发表于 2026-4-6 10:43
楼主最后用的什么模型呢

嗯？使用的qwen35b-a3b，和glm4.7-flash，还有gemma4的那个26a4b，纯稠密运行速度太慢，也就前面三个目前还算能用。

zhaosen7328376 · 2026-5-7 18:57:32

楼主厉害，请问如果是n5pro 870m核显，环境变量应该怎么设置呢？

杯子 · 2026-5-8 09:40:38

zhaosen7328376 发表于 2026-5-7 18:57
楼主厉害，请问如果是n5pro 870m核显，环境变量应该怎么设置呢？

pro用的是370吧，我咋记得是890的显卡啊？不过都没差，因为amd官方支持的395+的那个，所以还是调用vulkan可能更好一些。设置上也没有什么区别，不知道你使用的是ollama还是llama或者其他的后端。

dmxjfn · 2026-5-24 06:46:24

我方案三部署好能用了，但就是联网搜索打开了，聊天也正常的，但聊天窗口总会出现 An error occurred while searching the web。检测API接口等都正常的。各种设置也偿试了，不知怎回事，求高人指点！

杯子 · 2026-5-26 09:17:39

dmxjfn 发表于 2026-5-24 06:46
我方案三部署好能用了，但就是联网搜索打开了，聊天也正常的，但聊天窗口总会出现 An error occurred while ...

说实话我没有开过openwebui的联网搜索功能，因为这个本来就是要处理隐私数据用的...后来我换成qwenpaw+llama来处理隐私数据。联网的话我使用qwenpaw+deepseekv4的api来处理联网检索数据，我比较偏向于类似龙虾的智能体来开展联网检索。

dmxjfn · 2026-5-26 09:25:12

好的，谢谢你。

jinghuaishan · 2026-6-16 15:01:05

哥们 /models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf 这个模型完整的是哪个？现在带**号

杯子 · 2026-6-16 16:10:02

jinghuaishan 发表于 2026-6-16 15:01
哥们 /models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf 这个模型完整的是哪个？现在带**号 ...

哦哦，A P E X的，我都没注意，魔搭社区有，要mtp的，硬件强就用27b的，两种都很吃显存或者内存，但都有速度加成。

		自动登录	找回密码
密码			立即注册