如何在Windows上安裝Ollama和WebUI的完整指南

一、WebUI 與 Ollama 分開安裝部署

1. 安裝必要軟體

安裝 Windows 平台的 Ollama
安裝 Docker Desktop 與 docker-compose（支援 Windows）

2. 啟動 Ollama

前往 Ollama 模型搜尋頁面，下載需要的語言模型
以下載 llama3.1:8b 模型為例：

執行下列指令啟動模型：

ollama run llama3.1:8b

3. 安裝 WebUI 介面

WebUI 是提供給語言模型的網頁對話介面。

在 Windows 中執行以下命令啟動 WebUI 容器：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

開啟瀏覽器進入以下網址確認 WebUI 是否成功載入：

http://localhost:3000

首次使用時需建立管理員帳號，之後即可透過 WebUI 與模型進行互動。

二、[選項] WebUI 與 Ollama 一起部署於 Docker（無需安裝本機版 Ollama）

在已安裝 Docker 的 Windows 系統上執行：

docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

✅ 本地語言模型安裝完成！還能做什麼？

三、加速語言模型執行效能

1. 確認 GPU 與 CUDA 驅動版本

開啟終端機執行 nvidia-smi：

cmdCopyEditC:\Users\john>nvidia-smi

範例輸出（VRAM：4GB，CUDA 版本：12.7）：

yamlCopyEditDriver Version: 566.24
CUDA Version: 12.7
GPU Memory: 2145MiB / 4096MiB

2. 安裝 CUDA Toolkit

從 NVIDIA CUDA 官網下載 CUDA 工具包

注意：安裝版本應小於驅動支援版本（例：驅動顯示 CUDA 12.7，則安裝 CUDA 12.6）

3. 模型效能初步觀察

在 4GB VRAM 的筆電 GPU 上運行 llama3.1:8b 模型時，資源使用比例如下：

CPU 使用率：約 49%
GPU 使用率：約 51%

✅ 建議依據設備的 GPU 記憶體，評估適合部署的模型大小（8B 模型為 4GB VRAM 的上限）

四、[選項] 部署支援 GPU 加速的 WebUI 與 Ollama 組合

執行以下命令整合 GPU 資源：

docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

五、在 Ollama 部署 Hugging Face 模型

1. 登入 Hugging Face 並建立 API Token

造訪 Hugging Face
搜尋模型，例如：Llama-3.1-TAIDE-LX-8B-Chat-GGUF

2. 執行模型

ollama run hf.co/nctu6/Llama-3.1-TAIDE-LX-8B-Chat-GGUF

執行後畫面範例如下：
效能資訊如下：

六、部署自訂微調（Fine-tuned）模型

1. 準備微調資料集

參考資料來源：
- TAIDE 訓練資料
- LLaMA Factory 範例資料

2. 微調工具推薦

3. 匯入微調模型到 Ollama（待續）

🔧 未來將補充 GGUF 格式微調模型的載入方式