收起左侧

本地 AI 部署指南:Ollama · llama + MTP · Open WebUI · Qwenpaw · llama天梯

11
回复
4525
查看
[ 复制链接 ]

1

主题

7

回帖

0

牛值

江湖小虾

2026-3-6 11:00:55 显示全部楼层 阅读模式

适用人群:NAS 用户、本地 AI 新手
操作系统:飞牛 OS(fnOS)
最后更新:2026 年 6 月 23 日


📋 目录

  1. 背景说明
  2. 方案对比
  3. 双卡配置说明
  4. 部署与配置
    • 4.1 Docker 公用配置
    • 4.2 手动配置 Ollama + Open WebUI 部署
    • 4.3 llama.cpp 部署配置(单卡 / 双卡通用)
    • 4.4 Qwenpaw Compose 配置
  5. 模型实测与性能分析
  6. 新主机性能实测(6750 GRE + MI50 双卡)
  7. 使用方法与常见问题
  8. 总结与建议
  9. 参考资料
  10. llama性能天梯

一、背景说明

两台设备,一台铭凡 N5 的 NAS 主机,硬件配置如下:

项目 规格
CPU AMD R7 255
显卡 Radeon 780M(板载集成,无独立显卡)
内存 升级至 48GB
存储 NAS 大容量硬盘

一台自己配的台式机(2026 年 6 月新增):

项目 规格
CPU AMD Ryzen 9 7900X
主板 铭瑄 B850 AIGA
内存 32GB
独显 AMD Radeon RX 6750 GRE 12GB(主卡)
计算卡 AMD Radeon Instinct MI50 16GB(副卡)
电源 1000W
操作系统 飞牛 OS(fnOS)
后端 llama Vulkan + MTP 投机解码

💡 关键说明:AMD 已停止对 MI50 的 ROCm 支持,新版镜像无法启用 LCM。目前 Vulkan 是唯一可用的最佳方案。


二、方案对比

方案 优点 缺点
方案 1:飞牛原生 ollama 套件 应用市场一键安装,ollama + openwebui 组合 版本更新没有 ollama 官方快
方案 2:Docker ollama + 飞牛市场 lobechat lobechat 界面简洁 lobechat 版本较低,后续维护转向 Windows
方案 3:Docker ollama + openwebui 版本最新,功能最全,支持模型管理、多轮对话、知识库 需手动配置 Docker
方案 4:Docker llama.cpp + qwenpaw 推理速度更快,模型精度可选范围更广,支持 GGUF 模型直下 部署复杂,单次仅能运行一个模型

三、双卡配置说明

💡 双卡架构:RX 6750 GRE 12GB(主卡,50% 计算)+ MI50 16GB(副卡,50% 计算),按层拆分部署大模型。

⚠️ 兼容性:AMD 已停止对 MI50 的 ROCm 支持,新版的镜像无法启用该模式。使用 vulkan 模式两块同型号显卡可正常启动,效率可能比 rocm 略低。


四、部署与配置

如果使用 docker 部署,建议都使用 compose,一开始我也是手动配置,但是容器经常有各种各样的问题,使用 compose 效率要高的多,一次填写可以重复构建。

4.1 Docker 公用配置

# 以下配置适用于所有 Docker 容器
environment:
  - TZ=Asia/Shanghai                    # 设置容器时区为上海
volumes:
  - /etc/localtime:/etc/localtime:ro    # 挂载宿主机时区文件(只读)
  - /etc/timezone:/etc/timezone:ro      # 挂载时区名称(部分软件依赖此文件)

4.2 手动配置 Ollama + Open WebUI 部署

1. 下载 Docker 镜像

  • ollama:在飞牛 Docker 镜像仓库搜索 ollama,选择官方源 ollama/ollama 下载 latest 版本
  • openwebui:通过本地镜像 → 添加镜像,手动拉取 ghcr.io/open-webui/open-webui:main
  • ROCm 版本(可选):如需 AMD GPU 专用优化版,手动拉取 ollama/ollama:x.xx.xx-rocm

💡 ROCm 与 Vulkan 对比:ROCm 是 AMD 原生 GPU 计算平台,Vulkan 是跨平台方案。Radeon 780M 两种均可使用

2. 配置 Ollama 容器

配置项 设置值 说明
开机自动启动 ✅ 勾选 保证长期运行
端口映射 11434 确保未被占用
存储路径 /root/.ollama/(自定义) 建议选大容量磁盘
网络模式 host ollama 需使用 host 模式
环境变量 OLLAMA_ORIGINS=* 允许所有来源访问(必填)
环境变量 OLLAMA_VULKAN=1 启用 Vulkan 后端

⚠️ Vulkan 与 ROCm 二选一:

  • 使用 Vulkan:保留 OLLAMA_VULKAN=1,删除 ROCm 相关变量
  • 使用 ROCm:保留 HSA_OVERRIDE_GFX_VERSION=11.0.0,删除 OLLAMA_VULKAN=1

本教程显卡为 Radeon 780M,经测试 HSA_OVERRIDE_GFX_VERSION=11.0.0 可用。别的显卡请参考 AMD 官方 hip 的官方网页。

3. 配置 Open WebUI 容器

配置项 设置值 说明
端口映射 3000:8080 宿主机 3000 端口映射到容器 8080
存储路径 /root/open-webui(自定义) 自定义映射路径,不与其他容器共用
网络模式 bridge 标准桥接模式

4.3 llama.cpp 部署配置(单卡 / 双卡通用)

一份 compose 兼容单卡和双卡,显卡拆分部分已注释,按需启用。

services:
  # 服务一:llama(主推理服务)
  llama:
    image: ghcr.io/ggml-org/llama.cpp:server-vulkan-b9737
    container_name: llama
    restart: unless-stopped
    ports:
      - 8082:8082/tcp
    volumes:
      - /vol1/1000/docker/llama/models:/models
    devices: 
      - /dev/kfd:/dev/kfd   # ROCm 内核驱动设备,必需
      - /dev/dri:/dev/dri   # 直接渲染设备,vulkan 必需
    group_add:
      - video
    networks:
      - localNetwork
   
    environment:
      #- LLAMA_AR**ODEL=/models/xxxxx.gguf  #x.gguf就是模型的名称
      - LLAMA_AR**ODEL=/models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf

      # --- Qwen 专属采样策略 (严谨逻辑,防重复) ---
      - LLAMA_ARG_TEMP=0.8
      - LLAMA_ARG_TOP_P=0.97
      - LLAMA_ARG_TOP_K=40
      - LLAMA_ARG_REPEAT_PENALTY=1.1

      # vulkan 专用优化配置
      - GGML_VULKAN=1                    # 强制启用 Vulkan
      - GGML_VK_VISIBLE_DEVICES=1,2      # 只认 6750 GRE + MI50,完全忽略核显,单卡请注释掉,就是前面加#
      - GGML_VK_FORCE_MMVQ=1             #MMVQ 是多行矩阵向量量化乘,心里觉得有效
  
      # 缓存优化配置
      - LLAMA_ARG_CTX_SIZE=262144  # 不知道为什么我的机器只能识别一半的上下文,填128k就显示64k。。。
      - LLAMA_ARG_BATCH=2048  # 逻辑批,默认是 512 或 1024,针对长文本加大
      - LLAMA_ARG_UBATCH=1024    # 物理批大小,配合 2048 的逻辑批
      - LLAMA_ARG_FLASH_ATTN=1     # 集中模型注意力,vulkan 有效
      #- LLAMA_ARG_N_GPU_LAYERS=99  # 全模型层上 GPU,确保大上下文
      #- LLAMA_ARG_N_CPU_MOE=22   # 混合状态下可以把部分卸载到 cpu,单显卡显存不够的情况下,似乎这个22最合适。
      - LLAMA_ARG_CACHE_TYPE_K=q8_0 # KV Cache K 量化,节省显存
      - LLAMA_ARG_CACHE_TYPE_V=q4_0

      # 线程优化
      #- LLAMA_ARG_SLOTS=2         # 智能体并发槽位数量
      - LLAMA_ARG_N_PARALLEL=2       # 每个槽位线程数量
  
      # 重复惩罚
      - LLAMA_ARG_DRY_MULTIPLIER=1.5     # DRY 重复惩罚乘数(1 为不惩罚)
      - LLAMA_ARG_DRY_ALLOWED_LENGTH=4     # 惩罚生效的阈值长度(Token 数)
      - LLAMA_ARG_DRY_PENALTY_LAST_N=4096   # 重复惩罚的检测窗口(倒数 N 个 Token)
  
      # 投机解码配置
      - LLAMA_ARG_SPEC_TYPE=draft-mtp    # 开启 MTP 投机解码
      - LLAMA_ARG_SPEC_HEURISTIC=1      # 启用动态投机解码
      - LLAMA_ARG_SPEC_DRAFT_N_MAX=2     # 最多猜 2 个,超过这个2会影响速度
      - LLAMA_ARG_SPEC_DRAFT_N_MIN=1     # 最少猜 1 个

      - LLAMA_ARG_PORT=8082
      - LLAMA_ARG_HOST=0.0.0.0
  
      # 显卡拆分配置(双卡用户取消注释,单卡用户保持注释)
      - LLAMA_ARG_SPLIT_MODE=layer      # 按层拆分
      - LLAMA_ARG_TENSOR_SPLIT=4,6     # 显存分配
      - LLAMA_AR**AIN_GPU=0          # 主显卡
  
      # 其他优化
      - LLAMA_ARG_NO_MMAP=1        # 内存全量读取,避免使用磁盘缓存,但是要占至少8GB内存  
      - LLAMA_ARG_CTX_CHECKPOINTS=64  # 增加检查点数量 
      - LLAMA_ARG_CONT_BATCHING=1      # 开启连续批处理

networks:
  localNetwork:
    external: true
    driver: bridge

💡 单卡使用:保持显卡拆分部分注释状态即可,无需修改。

💡 双卡使用:取消显卡拆分部分的注释,并根据实际显存分配调整 TENSOR_SPLIT 比例。


4.4 Qwenpaw Compose 配置

以下配置用于部署 qwenpaw(AI 助手服务),包含私有版和联网版两个实例:

services:
  # 服务一:qwenpaw-solo(私有版,不联网)
  qwenpaw-solo:
    container_name: qwenpaw-solo
    image: agentscope/qwenpaw:latest
    restart: always

    ports:
      - 8089:8088/tcp

    environment:
      - TZ=Asia/Shanghai
      - QWENPAW_AUTH_ENABLED=true

    volumes:
      - /vol5/1000/Dockers/qwenpaw-solo/data:/app/working
      - /vol5/1000/Dockers/qwenpaw-solo/secrets:/app/working.secret
      - /vol5/1000/Dockers/qwenpaw-solo/backups:/app/working.backups
      - /etc/localtime:/etc/localtime:ro
      - /etc/timezone:/etc/timezone:ro

    networks:
      - localNetwork

  # 服务二:qwenpaw(联网版,可访问互联网)
  qwenpaw:
    container_name: qwenpaw
    image: agentscope/qwenpaw:latest
    restart: always

    ports:
      - 8088:8088/tcp

    environment:
      - TZ=Asia/Shanghai
      - QWENPAW_AUTH_ENABLED=true

    volumes:
      - /vol5/1000/Dockers/qwenpaw/data:/app/working
      - /vol5/1000/Dockers/qwenpaw/secrets:/app/working.secret
      - /vol5/1000/Dockers/qwenpaw/backups:/app/working.backups
      - /etc/localtime:/etc/localtime:ro
      - /etc/timezone:/etc/timezone:ro

    networks:
      - openNetwork

networks:
  localNetwork:
    external: true
    driver: bridge

  openNetwork:
    external: true
    driver: bridge

五、模型实测与性能分析

硬件环境:Radeon 780M + 48GB 内存 + Vulkan

5.1 Ollama 模型表现

模型 速度(token/s) 评价
qwen3.5-9b-q4 8-12 够用,智商一般
qwen3.5-27b-q4 3-5 很慢,但智商很好
qwen3.5-35b-a3b-q8 8-12 占用 36GB 内存,智商在线(q4 无法通过部分测试,q8 可以)
glm-4.7-flash-q8 10-12 速度快,但存在逻辑错误(如"4 月有 31 天")
lfm2-24b 20+ 极快,但无思考模式

💡 千问系列模型思考时间较长、输出偏啰嗦;GLM4.7 速度优秀但偶尔出现常识性错误。

5.2 llama.cpp 模型表现

感觉 llama.cpp 推理速度优于 ollama,模型精度选择更多,支持魔塔社区 GGUF 模型直下。

模型 速度(token/s) 备注
qwen3.5-27b-q4 4-5 -
qwen3.5-9b-q4 8-12 -
gemma26b-a4b-**-iq 19-20 速度优秀
qwen3.6-35b-a3b-**-iq 20-22 流畅对话
qwen3.6-35b-a3b-**-mtp-iq 23-34 极不稳定,而且输出不线性,但是很快。

20+ token/s 的对话速度已足够流畅,阅读速度跟不上输出速度。


六、新主机性能实测(6750 GRE + MI50 双卡)

硬件环境:Radeon RX 6750 GRE 12GB + MI50 16GB + 32GB 内存 + Vulkan + MTP

💡 关键结论:

  • 35B ** MTP 模型在 6750GRE + MI50 组合下稳定 55+ tok/s,对话体验流畅
  • 27B 的 MTP-q4km 模型仅需 15.7GB 显存,速度 30+ tok/s,适合显存紧张的场景
  • 双卡按层拆分后,双卡还是有点用处,主要是可以增加显存。

七、使用方法与常见问题

7.1 局域网访问

在浏览器中输入 http://<飞牛 NAS IP>:3000 即可打开 Open WebUI 界面。

7.2 通过 fnconnect 访问

打开飞牛 fnconnect → Docker → 容器列表 → 点击 ollama 容器行右侧的端口下拉框(显示 3000:8080),点击即可打开。

7.3 使用 qwenpaw 链接 llama 或者 ollama

进去 qwenpaw,点击左侧的模型,ollama 默认存在,直接输入 ollama 的 docker 名称 + 端口号就行,比如名称就是 ollama,那地址就输入 http://ollama:11434,就可以了。llama 需要在模型页面右上角点击新增。其余一样。

7.4 常见问题

Q:Open WebUI 页面无法打开

A:大概率是模型下载失败导致。找到嵌入模型配置项,删除后半部分文字(不要删除整个字段),即可正常打开界面。


八、总结与建议

优先级 建议 说明
1 新手入门 直接使用飞牛原生 ollama 套件,最简单
2 追求功能 方案 3(ollama + openwebui),持续维护中
3 追求性能 方案 4(llama.cpp + Vulkan),单卡 20+ token/s 流畅体验
4 硬件升级 铭凡 N5(48GB 内存)已足够运行 35B 模型;新主机(32GB 内存)需控制模型大小。若未来升级,建议关注 16GB 以上显存的独立显卡,但需注意 NAS 平台驱动兼容性
5 使用场景 日常文字编写、文档整理、信息检索、知识库管理、邮件处理等完全够用。编程任务未测试,如有需求建议搭配更高性能硬件

九、参考资料

资源 链接
ollama 官方文档 https://ollama.com
openwebui 官方仓库 https://github.com/open-webui/open-webui
llama.cpp 官方仓库 https://github.com/ggml-org/llama.cpp
AMD ROCm 文档 https://rocm.docs.amd.com
魔塔社区 https://modelscope.cn

免责声明:本文基于个人实际测试经验编写,仅供参考。不同硬件配置可能导致结果差异,请根据自身情况调整配置。

llama.cpp GPU 性能天梯

数据来源:knightli.com 整理自 llama.cpp GitHub Discussions Scoreboard

测试模型: Llama 2 7B
测试量化: Q4_0
测试指标:

  • pp512 t/s = 处理 512 个 prompt token 的吞吐量
  • tg128 t/s = 连续生成 128 个 token 的速度(日常体验最相关)

CUDA 后端 — 无 Flash Attention

排名 显卡 显存配置 pp512 t/s tg128 t/s 提交者
1 RTX 5090 32 GB / GDDR7 / 512 bit 14073.41 290.02 @totaldev
2 RTX PRO 6000 Blackwell 96 GB / GDDR7 / 512 bit 14854.63 274.20 @Tom94
3 H100 80 GB 80 GB / HBM3 / 5120 bit 9918.34 267.81 @Hedede
4 A100 80 GB 80 GB / HBM2e / 5120 bit 4849.53 190.88 @Hedede
5 RTX 4090 D 24 GB / GDDR6X / 384 bit 10293.86 189.33 @autonomous-AI-lab
6 RTX 4090 24 GB / GDDR6X / 384 bit 11992.70 186.21 @lhl
7 RTX 5080 16 GB / GDDR7 / 256 bit 8297.36 181.99 @Hedede
8 RTX 5070 Ti 16 GB / GDDR7 / 256 bit 6952.38 176.85 @TinyServal
9 RTX 6000 Ada 48 GB / GDDR6 / 384 bit 9229.23 176.07 @Hedede
10 RTX 3090 Ti 24 GB / GDDR6X / 384 bit 6567.49 171.19 @slaren
11 RTX 3090 24 GB / GDDR6X / 384 bit 5174.69 158.16 @m18coppola
12 L40 48 GB / GDDR6 / 384 bit 8870.49 152.01 @Hedede
13 RTX 4080 SUPER 16 GB / GDDR6X / 256 bit 8125.15 148.33 @zacharyarnaise
14 RTX 4080 16 GB / GDDR6X / 256 bit 8031.64 142.49 @Ristovski
15 RTX 3080 10 GB / GDDR6X / 320 bit 5013.86 139.65 @slaren
16 RTX A6000 48 GB / GDDR6 / 384 bit 4913.93 138.73 @Hedede
17 RTX 4070 Ti SUPER 16 GB / GDDR6X / 256 bit 6924.53 132.26 @Ristovski
18 RTX PRO 4000 Blackwell 24 GB / GDDR7 / 192 bit 4992.83 131.66 @Hedede
19 RTX A5000 24 GB / GDDR6 / 384 bit 4028.16 130.07 @Hedede
20 Tesla V100 32 GB / HBM2 / 4096 bit 3042.64 129.08 @Hedede
21 RTX 5070 12 GB / GDDR7 / 192 bit 5184.75 127.54 @Spyro000
22 A40 48 GB / GDDR6 / 384 bit 4609.01 124.11 @Hedede
23 A30 24 GB / HBM2e / 3072 bit 2767.10 124.81 @Hedede
24 Titan V 12 GB / HBM2 / 3072 bit 2617.46 108.79 @Hedede
25 RTX 2080 Ti 11 GB / GDDR6 / 352 bit 2890.66 107.51 @ariya
26 Quadro RTX 6000 24 GB / GDDR6 / 384 bit 2751.18 102.77 @Hedede
27 Quadro RTX 8000 48 GB / GDDR6 / 384 bit 2709.95 102.68 @Hedede
28 RTX A4500 20 GB / GDDR6 / 320 bit 2827.20 97.32 @aleksyx
29 RTX 5060 Ti 16 GB 16 GB / GDDR7 / 128 bit 3737.25 90.94 @mike-llamacpp
30 RTX 2070 SUPER 8 GB / GDDR6 / 256 bit 2088.34 88.06 @phstudy
31 RTX A4000 16 GB / GDDR6 / 256 bit 2496.09 84.21 @TinyServal
32 RTX 3060 12 GB / GDDR6 / 192 bit 2181.31 75.31 @QuantiusBenignus
33 Titan Xp 12 GB / GDDR5X / 384 bit 1104.80 73.13 @Hedede
34 Quadro RTX 4000 8 GB / GDDR6 / 256 bit 1519.83 65.79 @Hedede
35 RTX 4060 Ti 8 GB 8 GB / GDDR6 / 128 bit 3604.30 63.23 @mike-llamacpp
36 Tesla P100 16 GB / HBM2 / 4096 bit 760.80 58.35 @Hedede
37 GTX 1080 Ti 11 GB / GDDR5X / 352 bit 1056.45 57.11 @ariya
38 RTX A4000 Ada 20 GB / GDDR6 / 160 bit 2688.97 54.69 @sdwolfz
39 RTX 2060 SUPER 8 GB / GDDR6 / 256 bit 1439.67 57.74 @ggerganov
40 Tesla P40 24 GB / GDDR5 / 384 bit 1007.42 54.74 @m18coppola
41 RTX 2000 Ada 16 GB / GDDR6 / 128 bit 1966.07 49.15 @DigitalRudeness
42 Tesla T4 16 GB / GDDR6 / 256 bit 1219.06 46.38 @pt13762104
43 GTX 1660 6 GB / GDDR5 / 192 bit 154.45 41.43 @ariya
44 Tesla M40 24 GB / GDDR5 / 384 bit 282.65 38.04 @Hedede
45 GTX 1070 Ti 8 GB / GDDR5 / 256 bit 790.52 37.87 @pebaryan
46 Jetson AGX Orin 64 GB / LPDDR5 / 256 bit 1171.96 35.88 @TinyServal
47 Tesla P4 8 GB / GDDR5 / 256 bit 529.53 33.12 @m18coppola
48 P106-100 6 GB / GDDR5 / 192 bit 438.49 30.64 @pebaryan
49 GTX 1060 6 GB / GDDR5 / 192 bit 446.19 28.18 @pebaryan
50 Quadro T1000 4 GB / GDDR5 / 128 bit 27.46 27.46 @hanabu
51 Quadro P2000 5 GB / GDDR5 / 160 bit 311.55 23.76 @TinyServal
52 Tesla K80 12 GB / GDDR5 / 384 bit 133.36 14.27 @pebaryan
53 Quadro P1000 4 GB / GDDR5 / 128 bit 173.82 13.65 @aleksyx

CUDA 后端 — 开启 Flash Attention

排名 显卡 显存配置 pp512 t/s tg128 t/s 提交者
1 RTX PRO 6000 Blackwell 96 GB / GDDR7 / 512 bit 16618.98 281.11 @Tom94
2 RTX 5090 32 GB / GDDR7 / 512 bit 14970.15 300.40 @totaldev
3 H100 80 GB 80 GB / HBM3 / 5120 bit 11263.29 280.74 @Hedede
4 A100 80 GB 80 GB / HBM2e / 5120 bit 5285.96 200.90 @Hedede
5 RTX 4090 D 24 GB / GDDR6X / 384 bit 12506.97 191.57 @autonomous-AI-lab
6 RTX 4090 24 GB / GDDR6X / 384 bit 14770.63 188.96 @lhl
7 RTX 5080 16 GB / GDDR7 / 256 bit 9487.70 184.68 @Hedede
8 RTX 5070 Ti 16 GB / GDDR7 / 256 bit 8419.56 182.43 @TinyServal
9 RTX 6000 Ada 48 GB / GDDR6 / 384 bit 10576.85 179.47 @Hedede
10 RTX 3090 Ti 24 GB / GDDR6X / 384 bit 6924.01 172.26 @slaren
11 RTX PRO 4500 Blackwell 32 GB / GDDR7 / 256 bit 7251.66 168.90 @Hedede
12 RTX 3090 24 GB / GDDR6X / 384 bit 5560.06 161.89 @m18coppola
13 L40 48 GB / GDDR6 / 384 bit 10097.64 153.76 @Hedede
14 RTX 4080 SUPER 16 GB / GDDR6X / 256 bit 9439.01 147.48 @zacharyarnaise
15 RTX A6000 48 GB / GDDR6 / 384 bit 5662.39 144.87 @Hedede
16 RTX 4080 16 GB / GDDR6X / 256 bit 9205.93 143.47 @Ristovski
17 RTX 3080 10 GB / GDDR6X / 320 bit 5569.56 139.95 @slaren
18 RTX PRO 4000 Blackwell 24 GB / GDDR7 / 192 bit 5674.44 136.38 @Hedede
19 RTX A5000 24 GB / GDDR6 / 384 bit 4552.15 135.83 @Hedede
20 Tesla V100 32 GB / HBM2 / 4096 bit 2973.78 134.76 @Hedede
21 RTX 4070 Ti SUPER 16 GB / GDDR6X / 256 bit 7612.32 132.85 @Ristovski
22 A30 24 GB / HBM2e / 3072 bit 3068.72 131.93 @Hedede
23 RTX 5070 12 GB / GDDR7 / 192 bit 5783.44 128.21 @Spyro000
24 A40 48 GB / GDDR6 / 384 bit 5256.38 126.24 @Hedede
25 Titan V 12 GB / HBM2 / 3072 bit 2481.25 112.17 @Hedede
26 RTX 2080 Ti 11 GB / GDDR6 / 352 bit 3107.61 109.17 @ariya
27 Quadro RTX 6000 24 GB / GDDR6 / 384 bit 3053.96 104.38 @Hedede
28 Quadro RTX 8000 48 GB / GDDR6 / 384 bit 3052.35 103.63 @Hedede
29 RTX A4500 20 GB / GDDR6 / 320 bit 3453.10 103.00 @aleksyx
30 RTX 5060 Ti 16 GB 16 GB / GDDR7 / 128 bit 4195.53 93.46 @mike-llamacpp
31 RTX 2070 SUPER 8 GB / GDDR6 / 256 bit 2293.29 87.71 @phstudy
32 RTX A4000 16 GB / GDDR6 / 256 bit 2807.83 85.17 @TinyServal
33 RTX 3060 12 GB / GDDR6 / 192 bit 2407.67 76.92 @QuantiusBenignus
34 Titan Xp 12 GB / GDDR5X / 384 bit 1218.12 73.84 @Hedede
35 Quadro RTX 4000 8 GB / GDDR6 / 256 bit 1662.80 67.62 @Hedede
36 RTX 4060 Ti 8 GB 8 GB / GDDR6 / 128 bit 3803.45 64.03 @mike-llamacpp
37 Tesla P100 16 GB / HBM2 / 4096 bit 787.36 61.99 @Hedede
38 GTX 1080 Ti 11 GB / GDDR5X / 352 bit 1138.14 61.38 @ariya
39 RTX A4000 Ada 20 GB / GDDR6 / 160 bit 3171.86 61.37 @sdwolfz
40 RTX 2060 SUPER 8 GB / GDDR6 / 256 bit 1563.77 61.13 @ggerganov
41 DGX Spark 128 GB / LPDDR5x 3661.37 56.74 @ggerganov
42 Tesla P40 24 GB / GDDR5 / 384 bit 1079.66 53.73 @m18coppola
43 RTX 2000 Ada 16 GB / GDDR6 / 128 bit 2250.14 50.71 @DigitalRudeness
44 Tesla T4 16 GB / GDDR6 / 256 bit 1309.73 44.03 @pt13762104
45 GTX 1660 6 GB / GDDR5 / 192 bit 154.45 41.43 @ariya
46 Tesla M40 24 GB / GDDR5 / 384 bit 290.17 39.98 @Hedede
47 GTX 1070 Ti 8 GB / GDDR5 / 256 bit 790.52 37.87 @pebaryan
48 Jetson AGX Orin 64 GB / LPDDR5 / 256 bit 1171.96 35.88 @TinyServal
49 Tesla P4 8 GB / GDDR5 / 256 bit 529.53 33.12 @m18coppola
50 P106-100 6 GB / GDDR5 / 192 bit 438.49 30.64 @pebaryan
51 GTX 1060 6 GB / GDDR5 / 192 bit 446.19 28.18 @pebaryan
52 Tesla K80 12 GB / GDDR5 / 384 bit 133.36 14.27 @pebaryan
53 Quadro P1000 4 GB / GDDR5 / 128 bit 173.82 13.65 @aleksyx

ROCm / HIP 后端 — 无 Flash Attention

排名 显卡 显存配置 pp512 t/s tg128 t/s 提交者
1 Instinct MI300X 192 GB / HBM3 / 8192 bit 11476.40 232.92 @yeahdongcn
2 RX 7900 XTX 24 GB / GDDR6 / 384 bit 3552.27 167.11 @Diablo-D3
3 Instinct MI210 64 GB / HBM2e / 4096 bit 2486.22 124.51 @65a
4 Pro W7900 48 GB / GDDR6 / 384 bit 3213.17 121.18 @65a
5 RX 7900 XT 20 GB / GDDR6 / 320 bit 3098.38 116.15 @AdamNiederer
6 RX 9070 16 GB / GDDR6 / 256 bit 2381.77 114.48 @andj1210
7 Instinct MI100 32 GB / HBM2 / 4096 bit 2732.83 110.48 @firefox42
8 RX 9070 XT 16 GB / GDDR6 / 256 bit 5055.19 101.27 @Hadrianneue
9 RX 7800 XT 16 GB / GDDR6 / 256 bit 2151.81 100.94 @olegshulyakov
10 Instinct MI50 32 GB / HBM2 / 4096 bit 1057.24 98.95 @wtarreau
11 RX 7900 GRE 16 GB / GDDR6 / 256 bit 1456.98 96.07 @MihaiBojescu
12 AI PRO R9700 32 GB / GDDR6 / 256 bit 4443.54 93.84 @gogich77
13 Instinct MI60 32 GB / HBM2 / 4096 bit 1289.11 91.46 @Said-Akbar
14 RX 6900 XT 16 GB / GDDR6 / 256 bit 1889.84 88.49 @notgood
15 Pro VII 16 GB / HBM2 / 4096 bit 1064.99 87.45 @8XXD8
16 RX 6800 XT 16 GB / GDDR6 / 256 bit 1447.07 83.92 @MrLavender
17 Pro V620 32 GB / GDDR6 / 256 bit 1803.65 74.66 @samteezy
18 RX 9060 XT 16 GB / GDDR6 / 256 bit 1419.67 67.58 @lcy0321
19 RX 5700 XT 8 GB / GDDR6 / 256 bit 354.17 67.55 @daniandtheweb
20 Instinct MI25 16 GB / HBM2 / 2048 bit 409.83 63.94 @8XXD8
21 AI Max+ 395 128 GB / LPDDR5 911.36 50.01 @firefox42
22 RX 7600 XT 16 GB / GDDR6 / 128 bit 1099.64 48.58 @wbruna
23 RX Vega 64 8 GB / HBM2 / 2048 bit 240.68 48.46 @davispuh
24 Radeon 8060S System Shared / DDR5 351.36 47.97 @hspak
25 Radeon 880M System Shared / DDR5 163.25 12.97 @Hedede

ROCm / HIP 后端 — 开启 Flash Attention

排名 显卡 显存配置 pp512 t/s tg128 t/s 提交者
1 Instinct MI300X 192 GB / HBM3 / 8192 bit 11945.97 218.53 @yeahdongcn
2 RX 7900 XTX 24 GB / GDDR6 / 384 bit 3874.25 170.12 @Diablo-D3
3 Instinct MI210 64 GB / HBM2e / 4096 bit 2571.82 130.18 @65a
4 Pro W7900 48 GB / GDDR6 / 384 bit 3472.86 127.43 @65a
5 RX 7900 XT 20 GB / GDDR6 / 320 bit 3261.75 112.30 @AdamNiederer
6 RX 9070 16 GB / GDDR6 / 256 bit 2452.68 115.32 @andj1210
7 Instinct MI50 32 GB / HBM2 / 4096 bit 1129.43 105.82 @wtarreau
8 Instinct MI100 32 GB / HBM2 / 4096 bit 2755.00 104.71 @firefox42
9 AI PRO R9700 32 GB / GDDR6 / 256 bit 4773.07 97.98 @gogich77
10 RX 7900 GRE 16 GB / GDDR6 / 256 bit 1598.79 97.53 @MihaiBojescu
11 RX 9070 XT 16 GB / GDDR6 / 256 bit 4903.51 97.28 @Hadrianneue
12 RX 7800 XT 16 GB / GDDR6 / 256 bit 2304.63 95.99 @olegshulyakov
13 RX 6900 XT 16 GB / GDDR6 / 256 bit 1948.31 85.04 @notgood
14 Pro V620 32 GB / GDDR6 / 256 bit 1256.86 70.83 @samteezy
15 RX 9060 XT 16 GB / GDDR6 / 256 bit 1479.27 65.42 @lcy0321
16 RX 5700 XT 8 GB / GDDR6 / 256 bit 314.17 62.02 @daniandtheweb
17 AI Max+ 395 128 GB / LPDDR5 1003.53 49.87 @firefox42
18 Radeon 8060S System Shared / DDR5 366.08 48.97 @hspak
19 RX 7600 XT 16 GB / GDDR6 / 128 bit 1199.16 47.65 @wbruna
20 RX Vega 64 8 GB / HBM2 / 2048 bit 153.17 42.46 @davispuh
21 Radeon 880M System Shared / DDR5 213.31 16.16 @Hedede

Vulkan 后端 — 无 Flash Attention

排名 显卡 pp512 t/s tg128 t/s 备注
1 Nvidia RTX 5090 10381.64 263.63 coopmat2
2 AMD Radeon RX 7900 XTX 3531.93 191.28
3 Nvidia RTX 4090 9452.03 187.97 coopmat2
4 Nvidia RTX 5080 7444.99 185.10 coopmat2
5 Nvidia A100 6389.86 160.78 coopmat2
6 Nvidia RTX 3090 4298.97 160.13 coopmat2
7 Nvidia RTX 4080 Super 7101.18 147.13 coopmat2
8 Nvidia RTX A5000 3641.55 139.89 coopmat2
9 Nvidia RTX 3080 4287.11 139.15 coopmat2
10 AMD Radeon RX 9070 XT 5036.04 137.11
11 Nvidia RTX 5070 Ti 6213.63 135.63 coopmat2
12 AMD Radeon AI Pro R9700 4036.04 130.19
13 Nvidia Tesla V100 1391.39 129.58
14 Nvidia RTX 4070 Ti Super 6099.18 129.45 coopmat2
15 AMD Radeon RX 7900 XT 2941.58 123.18
16 AMD Radeon RX 9070 3164.10 119.71
17 AMD Radeon RX 7800 XT 2017.33 118.27
18 AMD Radeon RX 7900 GRE 2336.31 116.11
19 Apple M3 Ultra 1116.83 115.54 MoltenVK
20 Intel Arc Pro B70 3379.00 112.02
21 Nvidia Titan V 984.36 108.86
22 AMD Radeon Pro VII 1078.54 107.82
23 AMD Radeon RX 6900 XT 1837.21 104.60
24 Intel Arc Pro A60 2261.11 104.25
25 AMD Radeon VII 1059.14 101.19
26 AMD Radeon RX 6800 XT 1752.92 100.32
27 Nvidia RTX 2080 Ti 1888.24 97.58
28 AMD Radeon RX 6800 1698.69 95.61
29 AMD Radeon Pro W6800X Duo 687.71 94.82
30 Nvidia RTX 5060 Ti 3460.92 93.51 coopmat2
31 Nvidia RTX 4070 3179.37 92.29
32 AMD Radeon Pro W6800X 510.80 86.47 MoltenVK
33 AMD Radeon RX 6700 XT 1051.20 83.88
34 AMD Radeon RX 6750 XT 1040.58 81.98
35 AMD Radeon Pro V620 1595.32 81.78
36 Nvidia RTX 3070 2113.02 78.71
37 AMD Radeon Instinct MI60 369.26 78.16
38 Nvidia RTX 3060 1815.70 75.94 coopmat2
39 Apple M4 Max 724.77 75.02
40 Nvidia Tesla T10 1692.70 75.01 coopmat2
41 Nvidia RTX A4000 2248.14 73.74 coopmat2
42 AMD Radeon RX 5700 XT 529.69 70.73
43 AMD Radeon RX 9060 XT 2141.67 70.54
44 Intel Arc B580 620.94 70.14
45 AMD Radeon Pro V540 583.88 69.64
45 Intel Arc Pro B60 522.36 68.55
46 Nvidia GTX 1080 Ti 540.69 64.99
47 Nvidia RTX 2070 Super 1199.13 64.64
48 Nvidia Tesla P100 678.14 63.16
49 AMD BC-250 370.66 62.32
50 Nvidia Tesla T4 600.29 60.93
51 Nvidia Tesla P40 488.06 59.36
52 Intel Arc A770 1073.85 52.56
53 Intel Arc A770 1067.99 49.64
54 Intel Arc A750 858.39 46.20
55 Nvidia RTX 3060 Mobile 1059.76 49.03
56 Intel Arc B570 913.95 49.64
57 AMD Radeon RX 6600 761.89 50.63
58 AMD Radeon RX 6600M 605.59 48.21
59 AMD Radeon VII 1059.14 66.25
60 Nvidia RTX A2000 1245.19 45.52
61 AMD Radeon Pro W5700 449.85 68.55
62 AMD Radeon RX Vega 64 356.08 45.73
63 Nvidia RTX 2060 Super 818.46 57.72
64 Nvidia GTX 1660 Ti Mobile 511.67 56.60
65 AMD Ryzen AI Max+ 395 1288.96 53.59
66 Nvidia GB10 2737.79 52.28 coopmat2

Vulkan 后端 — 开启 Flash Attention

排名 显卡 pp512 t/s tg128 t/s 备注
1 Nvidia RTX 5090 11796.38 273.68 coopmat2
2 AMD Radeon RX 7900 XTX 3332.90 195.30
3 Nvidia RTX 5080 8054.59 192.17 coopmat2
4 Nvidia RTX 4090 10830.41 190.10 coopmat2
5 Nvidia A100 7064.40 170.56 coopmat2
6 Nvidia RTX 3090 4732.33 162.28 coopmat2
7 Nvidia RTX 4080 Super 8007.37 150.20 coopmat2
8 Nvidia RTX 3080 4913.83 145.74 coopmat2
9 Nvidia Tesla V100 1411.25 142.13
10 Nvidia RTX A5000 4071.22 140.43 coopmat2
11 AMD Radeon RX 9070 XT 4911.74 138.20
12 Nvidia RTX 5070 Ti 6764.53 135.65 coopmat2
13 AMD Radeon AI Pro R9700 4333.83 130.90
14 AMD Radeon RX 7900 XT 3043.93 124.20
15 AMD Radeon RX 7800 XT 2094.64 119.63
16 AMD Radeon RX 9070 3277.24 119.55
17 AMD Radeon RX 7900 GRE 2402.07 116.77
18 Apple M3 Ultra 1115.55 115.99 MoltenVK
19 Intel Arc Pro B70 3314.53 111.63
20 Nvidia Titan V 792.74 109.21
21 AMD Radeon Pro VII 783.94 108.45
22 AMD Radeon RX 6900 XT 1761.93 106.15
23 Nvidia RTX 2080 Ti 1936.25 100.99
24 AMD Radeon RX 6800 XT 1704.79 100.50
25 AMD Radeon RX 6800 1749.46 96.65
26 Nvidia RTX 5060 Ti 3912.65 97.01 coopmat2
27 Nvidia RTX 4070 4293.57 91.49 coopmat2
28 AMD Radeon RX 6750 XT 997.05 82.29
29 AMD Radeon RX 6700 XT 1010.90 81.86
30 Nvidia RTX 3060 2012.88 80.59 coopmat2
31 AMD Radeon Pro V620 1556.31 79.24
32 Nvidia RTX A4000 2482.74 76.07 coopmat2
33 Nvidia Tesla T10 1840.14 76.05 coopmat2
34 AMD Radeon RX 5700 XT 538.31 74.43
35 Intel Arc B580 419.49 72.00
36 Apple M4 Max 727.15 71.58
37 AMD Radeon RX 9060 XT 2185.67 70.85
38 AMD Radeon RX 6750 GRE 1014.54 69.59
39 AMD Radeon RX 7600 XT 871.78 53.62
40 Intel Arc A770 949.80 48.98
41 Nvidia Tesla P40 523.68 48.15
42 Intel Arc B570 859.59 47.85
43 Nvidia Tesla T4 626.79 45.84
44 AMD Instinct MI50 805.93 43.67

Apple Silicon 参考

Llama 2 7B, Q4_0, no FA

芯片 显存 pp512 t/s tg128 t/s
M2 Ultra (76 GPU) 192 GB / Unified 1401.85 94.27
M3 Max (40 GPU) 128 GB / Unified 690.99 65.85
M1 Pro (16 GPU) 16 GB / Unified 266.25 36.41

Llama 2 7B, Q4_0, FA enabled

芯片 显存 pp512 t/s tg128 t/s
M2 Ultra (76 GPU) 192 GB / Unified 1561.35 109.41
M3 Max (40 GPU) 128 GB / Unified 794.26 75.24
M1 Pro (16 GPU) 16 GB / Unified 302.14 22.34
收藏
送赞 3
分享

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
命比咖啡苦

0

主题

1

回帖

0

牛值

江湖小虾

2026-3-26 23:14:00 显示全部楼层
厉害厉害  我的rx580也可以跑起来了  用的Vulkan   运算能到22t
我试了好多遍,我的机器都不完全支持rocm特性,所以只能使用vulkan跑,但效率也可以,比cpu高不少,我看过b站的评测,完全支持rocm的硬件跑起来确实比vulkan快,这个就没办法了。等过段时间我买一块intel B50试试。  详情 回复
2026-3-27 11:10

1

主题

7

回帖

0

牛值

江湖小虾

2026-3-27 11:10:09 楼主 显示全部楼层
zhu3351469 发表于 2026-3-26 23:14
厉害厉害  我的rx580也可以跑起来了  用的Vulkan   运算能到22t

我试了好多遍,我的机器都不完全支持rocm特性,所以只能使用vulkan跑,但效率也可以,比cpu高不少,我看过b站的评测,完全支持rocm的硬件跑起来确实比vulkan快,这个就没办法了。等过段时间我买一块intel B50试试。
命比咖啡苦

0

主题

3

回帖

0

牛值

江湖小虾

2026-4-6 10:43:57 显示全部楼层

楼主最后用的什么模型呢

嗯?使用的qwen35b-a3b,和glm4.7-flash,还有gemma4的那个26a4b,纯稠密运行速度太慢,也就前面三个目前还算能用。  详情 回复
2026-4-6 20:00

1

主题

7

回帖

0

牛值

江湖小虾

2026-4-6 20:00:55 楼主 显示全部楼层
jhs0719 发表于 2026-4-6 10:43
楼主最后用的什么模型呢

嗯?使用的qwen35b-a3b,和glm4.7-flash,还有gemma4的那个26a4b,纯稠密运行速度太慢,也就前面三个目前还算能用。
命比咖啡苦

0

主题

4

回帖

0

牛值

江湖小虾

2026-5-7 18:57:32 显示全部楼层
楼主厉害,请问如果是n5pro 870m核显,环境变量应该怎么设置呢?
pro用的是370吧,我咋记得是890的显卡啊?不过都没差,因为amd官方支持的395+的那个,所以还是调用vulkan可能更好一些。设置上也没有什么区别,不知道你使用的是ollama还是llama或者其他的后端。  详情 回复
2026-5-8 09:40

1

主题

7

回帖

0

牛值

江湖小虾

2026-5-8 09:40:38 楼主 显示全部楼层
zhaosen7328376 发表于 2026-5-7 18:57
楼主厉害,请问如果是n5pro 870m核显,环境变量应该怎么设置呢?

pro用的是370吧,我咋记得是890的显卡啊?不过都没差,因为amd官方支持的395+的那个,所以还是调用vulkan可能更好一些。设置上也没有什么区别,不知道你使用的是ollama还是llama或者其他的后端。
命比咖啡苦

2

主题

26

回帖

0

牛值

江湖小虾

2026-5-24 06:46:24 显示全部楼层
我方案三部署好能用了,但就是联网搜索打开了,聊天也正常的,但聊天窗口总会出现 An error occurred while searching the web。 检测API接口等都正常的。各种设置也偿试了,不知怎回事,求高人指点!
说实话我没有开过openwebui的联网搜索功能,因为这个本来就是要处理隐私数据用的...后来我换成qwenpaw+llama来处理隐私数据。联网的话我使用qwenpaw+deepseekv4的api来处理联网检索数据,我比较偏向于类似龙虾的智能  详情 回复
2026-5-26 09:17

1

主题

7

回帖

0

牛值

江湖小虾

2026-5-26 09:17:39 楼主 显示全部楼层
dmxjfn 发表于 2026-5-24 06:46
我方案三部署好能用了,但就是联网搜索打开了,聊天也正常的,但聊天窗口总会出现 An error occurred while ...

说实话我没有开过openwebui的联网搜索功能,因为这个本来就是要处理隐私数据用的...后来我换成qwenpaw+llama来处理隐私数据。联网的话我使用qwenpaw+deepseekv4的api来处理联网检索数据,我比较偏向于类似龙虾的智能体来开展联网检索。
命比咖啡苦

2

主题

26

回帖

0

牛值

江湖小虾

2026-5-26 09:25:12 显示全部楼层

好的,谢谢你。handshake

0

主题

2

回帖

0

牛值

江湖小虾

2026-6-16 15:01:05 显示全部楼层
哥们 /models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf 这个模型完整的是哪个? 现在带**号
哦哦,**的,我都没注意,魔搭社区有,要mtp的,硬件强就用27b的,两种都很吃显存或者内存,但都有速度加成。  详情 回复
2026-6-16 16:10

1

主题

7

回帖

0

牛值

江湖小虾

2026-6-16 16:10:02 楼主 显示全部楼层
jinghuaishan 发表于 2026-6-16 15:01
哥们 /models/Qwen3.6-35B-A3B-**-MTP-I-Quality.gguf 这个模型完整的是哪个? 现在带**号 ...

哦哦,A P E X的,我都没注意,魔搭社区有,要mtp的,硬件强就用27b的,两种都很吃显存或者内存,但都有速度加成。
命比咖啡苦
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则