-
在飞牛的应用商店里面安装好驱动【实测需要选其他显卡才行,装完驱动先重启飞牛】
-

-
安装 NVIDIA Container Toolkit。安装完毕以后必须重启飞牛。
-
打开docker管理界面。到本地镜像,点右上角添加镜像。
-
添加下载链接(就是镜像下载的名字):docker.1ms.run/gpustack/gpustack:v2.2.0rc2 (国内毫秒镜像加速下载)
-

-
确定镜像下载完毕以后。大概8.87GB,需要通过ssh去启动容器,先准备SSH客户端并登录,执行sudo -i提权到root,gputack需要特权启动容器,启动的AI是通过work容器去启动独立的镜像。如下图我跑的情况(由于我不懂这个可视化界面怎么配置一堆变量,索性用命令行一行命令启动了)
-

-

-
到GPUSTACK服务节点获取work工作节点启动命令,先选择显卡类型,我是NVIDIA的。
-

-
根据提示,在ssh终端使用命令检查环境:nvidia-smi >/dev/null 2>&1 && echo "NVIDIA driver OK" || (echo "NVIDIA driver issue"; exit 1) && sudo docker info 2>/dev/null | grep -q "Runtime.*nvidia" && echo "NVIDIA Container Toolkit OK" || (echo "NVIDIA Container Toolkit not configured"; exit 1)
-

-
环境ok以后下一步,在节点IP这个地方写飞牛的IP(就是容器宿主机的IP)
-
获取work节点启动容器的命令(这里要注意一下,确认一下服务节点的iP和work节点ip是否正确):

-
把命令复制到ssh终端执行即可搞定。等十来秒服务启动完毕以后能在管理界面看到飞牛的这个节点。

-
这个时候已经可以用了。去部署界面配置参数就可以使用了。我一般是手动选择GPU,这里有个踩坑的地方,要使用的后端比如我这个LLAMA.cpp,需要提前去把这个后端的镜像拉取到飞牛上,避免超时报错。

-
启动完毕以后就可以通过【试验场】测试模型
-
调用API在路由里面找到要调用的模型,打开API接入信息


-
现在可以开始使用了。包括dify、mrdoc文档管理都可以通过openAI兼容的API接口进行调用。
