收起左侧

NAS 赋能 AI 推理:Xinference 分布式框架部署,让你的设备变身算力节点

1
回复
250
查看
[ 复制链接 ]

32

主题

9

回帖

0

牛值

fnOS系统内测组

社区上线纪念勋章

Xinference:

一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。

图片

集成:

  • • FastGPT:一个基于 LLM 大模型的开源 AI 知识库构建平台。提供了开箱即用的数据处理、模型调用、RAG 检索、可视化 AI 工作流编排等能力,帮助您轻松实现复杂的问答场景。
  • • Dify: 一个涵盖了大型语言模型开发、部署、维护和优化的 LLMOps 平台。
  • • RAGFlow: 是一款基于深度文档理解构建的开源 RAG 引擎。
  • • MaxKB: MaxKB = Max Knowledge Base,是一款基于大语言模型和 RAG 的开源知识库问答系统,广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。
  • • Chatbox: 一个支持前沿大语言模型的桌面客户端,支持 Windows,Mac,以及 Linux。

主要功能:

  • • 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
  • • ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
  • • 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
  • • ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
  • • 🌐 集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
  • • 🔌 开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChain,LlamaIndex,Dify,以及 Chatbox。

为什么选择 Xinference:

图片

安装

Docker Compose(CPU)

services:
xinference:
image: xprobe/xinference:latest
container_name: xinference
ports:
   - 9997:9997
environment:
   - XINFERENCE_HOME=/data
volumes:
   - /vol1/1000/docker/xinference:/data
command: xinference-local -H 0.0.0.0
restart: always

Docker Compose(CPU+GPU)

services:
xinference:
image: xprobe/xinference:latest
container_name: xinference
ports:
   - 9997:9997
environment:
   - XINFERENCE_HOME=/data
volumes:
   - /vol1/1000/docker/xinference:/data
command: xinference-local -H 0.0.0.0
restart: always
deploy:
    resources:
      reservations:
        devices:
          - driver: nvidia
            count: all
            capabilities: [gpu]

参数说明(更多参数建议去看文档)

:::tips
XINFERENCE_HOME(环境变量):指定存储路径

/data(路径):数据存储路径

xinference-local -H 0.0.0.0(启动命令):允许从外部访问服务

xinference-supervisor -H "${supervisor_host}"(启动命令):用于主节点

xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"(启动命令):用于子节点

:::

使用

浏览器中输入 <span leaf="">http://NAS的IP:9997</span> 就能看到界面

图片

点击左下角,可以切换深色主题

图片

设置语言为中文

图片

首先要下载模型,这里我选择比较小的 qwen3 模型

图片

补充扩展:推理引擎

https://inference.readthedocs.io/zh-cn/v1.2.0/user_guide/backends.html

我也不太懂,都是随便设置的(模型引擎不要选 vLLM,目前我用这个版本好像有问题)

图片

GPU 数量默认自动就行,这里我是用 CPU 跑的

图片

副本数量取决于你设备数量(Xinference 支持集群方式运行的,可以添加设备节点),一般默认 1 就行

图片

其他不用调整,点击运行按钮

图片

TIP:直接下载模型大概率会报错,因为需要良好网络

图片

点击“可选配置”,切换下载中心为 modelscape

图片

速度还是挺快的,等待下载完成

图片

如果下载安装没问题的话,会自动跳转到运行模型的页面

图片

点击跳转到对应的 Web 页面(上面的 IP 地址,一开始还以为是单独开了一个端口页面,特意将网络模式改为 host,后来发现没什么反应)

图片

来到调用模型页面,可以在这里图形化操作

图片

这里我是纯 CPU 跑的,用时大概 1 分半,不过响应速度很快(深度思考)

图片

虽然模型不大,但是处理器占用还是挺高的,内存一共用了 5.5GB 左右

图片

支持标准的 OpenAI 接口调用

图片

回到首页,这里还有很多其他模型,有需要的可以自行安装

图片

集群信息,可以接入多台设备作为节点来跑更大的模型,目前这里我只有本机一台

图片

这里我添加了 GPU 参数,就可以看到相应信息了

图片

使用 GPU 重新测试了上面模型,回复基本秒答(4 秒不到)

图片

总结

实际用下来感觉挺不错,界面操作简单,上手速度快(前提是要有靠谱教程,和跟着操作)。下载模型要记得切换下载中心,不然没有良好网络会下载报错。支持 CPU 和 GPU 两种方式运行模型,GPU 加速效果很明显,响应速度比纯 CPU 快太多;兼容 OpenAI 接口,方便外部应用调用;分布式推理应该是这个项目的重点,不过本次只演示了单台设备部署 Xinference 的过程,有兴趣的可以试试添加多个节点运行效果。

综合推荐:⭐⭐⭐⭐(功能全面,扩展性强)

使用体验:⭐⭐⭐⭐(界面简洁,操作直观)

部署难易:⭐⭐(简单)

收藏
送赞
分享

4

主题

44

回帖

0

牛值

fnOS系统内测组

这个对电脑性能要求还是比较高的,本身大小接近20个G,n100 试了一下纯文本,cpu满载,基本不能用,GPU需要英伟达的,低功耗nas玩大模型,基本告别了。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则