最新版本的飞牛的内核已支持XE,但用户态还是有待完善,现在用docker跑似乎是可以了,以下是方法:
1,docker国内镜像列表,在docker中设置(不设置好像也行,慢了点)

2,

services:
ollama-intel:
image: intel**ytics/ipex-llm-inference-cpp-xpu:latest
container_name: ollama-intel
privileged: true
restart: unless-stopped
devices:
- /dev/dri:/dev/dri
volumes:
- ./data/ollama_data:/root/.ollama # ← 请确认路径存在
ports:
- "11434:11434"
environment:
- OLLAMA_INTEL_GPU=true # 显式启用 Intel GPU
- DEVICE=Arc
- OLLAMA_HOST=0.0.0.0:11434
- OLLAMA_NUM_PARALLEL=2
- OLLAMA_MAX_LOADED_MODELS=1
- ONEAPI_DEVICE_SELECTOR=level_zero:0
command: >
bash -c "cd /llm/scripts/ && source ipex-llm-init --gpu --device Arc && bash start-ollama.sh && tail -f /llm/ollama/ollama.log"
group_add:
- "105"
- "44"
open-webui:
image: ghcr.nju.edu.cn/open-webui/open-webui:main
container_name: open-webui
restart: unless-stopped
ports:
- "13000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama-intel:11434
- WEBUI_AUTH=False
volumes:
- ./open-webui-data:/app/backend/data
depends_on:
- ollama-intel
volumes:
open-webui-data:
然后构建compose,等待下载镜像、构建容器后,就会有两个容器生成,默认我设置的端口是13000去访问open-webui,比如 http://ip:13000,这个启动有点慢,要等一下,注意,默认是http的,不是https
最后,intel的卡。。ipex-llm..对于大模型支持都有延迟。。这东西还不支持qwen3.5的,在ollama上下载不了3.5,不确定魔搭有没有合适的qwen3.5版本,目前我下载的是qwen3:8b是可以的,能跑这卡

21 TOKEN/s。。。
