
一、WebUI 與 Ollama 分開安裝部署
1. 安裝必要軟體
- 安裝 Windows 平台的 Ollama
- 安裝 Docker Desktop 與 docker-compose(支援 Windows)
2. 啟動 Ollama
- 前往 Ollama 模型搜尋頁面,下載需要的語言模型
- 以下載
llama3.1:8b模型為例:

- 執行下列指令啟動模型:
ollama run llama3.1:8b
3. 安裝 WebUI 介面
WebUI 是提供給語言模型的網頁對話介面。
- 在 Windows 中執行以下命令啟動 WebUI 容器:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
- 開啟瀏覽器進入以下網址確認 WebUI 是否成功載入:
http://localhost:3000
- 首次使用時需建立管理員帳號,之後即可透過 WebUI 與模型進行互動。

二、[選項] WebUI 與 Ollama 一起部署於 Docker(無需安裝本機版 Ollama)
- 在已安裝 Docker 的 Windows 系統上執行:
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
✅ 本地語言模型安裝完成!還能做什麼?
三、加速語言模型執行效能
1. 確認 GPU 與 CUDA 驅動版本
- 開啟終端機執行
nvidia-smi:
cmdCopyEditC:\Users\john>nvidia-smi
範例輸出(VRAM:4GB,CUDA 版本:12.7):
yamlCopyEditDriver Version: 566.24
CUDA Version: 12.7
GPU Memory: 2145MiB / 4096MiB

2. 安裝 CUDA Toolkit
- 從 NVIDIA CUDA 官網 下載 CUDA 工具包
注意:安裝版本應小於驅動支援版本(例:驅動顯示 CUDA 12.7,則安裝 CUDA 12.6)
3. 模型效能初步觀察
在 4GB VRAM 的筆電 GPU 上運行 llama3.1:8b 模型時,資源使用比例如下:
- CPU 使用率:約 49%
- GPU 使用率:約 51%

✅ 建議依據設備的 GPU 記憶體,評估適合部署的模型大小(8B 模型為 4GB VRAM 的上限)
四、[選項] 部署支援 GPU 加速的 WebUI 與 Ollama 組合
- 執行以下命令整合 GPU 資源:
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
五、在 Ollama 部署 Hugging Face 模型
1. 登入 Hugging Face 並建立 API Token
- 造訪 Hugging Face
- 搜尋模型,例如:
Llama-3.1-TAIDE-LX-8B-Chat-GGUF

2. 執行模型
ollama run hf.co/nctu6/Llama-3.1-TAIDE-LX-8B-Chat-GGUF
- 執行後畫面範例如下:

- 效能資訊如下:

六、部署自訂微調(Fine-tuned)模型
1. 準備微調資料集
- 參考資料來源:
2. 微調工具推薦
3. 匯入微調模型到 Ollama(待續)
🔧 未來將補充 GGUF 格式微調模型的載入方式