如何在Windows上安裝Ollama和WebUI的完整指南

本文詳述在Windows平台上安裝Ollama及Docker,並運行語言模型。還探討了GPU加速和如何將Hugging Face模型整合到Ollama中。

一、WebUI 與 Ollama 分開安裝部署

1. 安裝必要軟體

2. 啟動 Ollama

搜尋模型畫面
  • 執行下列指令啟動模型:
ollama run llama3.1:8b

3. 安裝 WebUI 介面

WebUI 是提供給語言模型的網頁對話介面。

  • 在 Windows 中執行以下命令啟動 WebUI 容器:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 開啟瀏覽器進入以下網址確認 WebUI 是否成功載入:
http://localhost:3000
  • 首次使用時需建立管理員帳號,之後即可透過 WebUI 與模型進行互動。
WebUI 首次啟動畫面

二、[選項] WebUI 與 Ollama 一起部署於 Docker(無需安裝本機版 Ollama)

  • 在已安裝 Docker 的 Windows 系統上執行:
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

✅ 本地語言模型安裝完成!還能做什麼?


三、加速語言模型執行效能

1. 確認 GPU 與 CUDA 驅動版本

  • 開啟終端機執行 nvidia-smi
cmdCopyEditC:\Users\john>nvidia-smi

範例輸出(VRAM:4GB,CUDA 版本:12.7):

yamlCopyEditDriver Version: 566.24
CUDA Version: 12.7
GPU Memory: 2145MiB / 4096MiB
nvidia-smi 結果

2. 安裝 CUDA Toolkit

注意:安裝版本應小於驅動支援版本(例:驅動顯示 CUDA 12.7,則安裝 CUDA 12.6)


3. 模型效能初步觀察

在 4GB VRAM 的筆電 GPU 上運行 llama3.1:8b 模型時,資源使用比例如下:

  • CPU 使用率:約 49%
  • GPU 使用率:約 51%
效能監控

✅ 建議依據設備的 GPU 記憶體,評估適合部署的模型大小(8B 模型為 4GB VRAM 的上限)


四、[選項] 部署支援 GPU 加速的 WebUI 與 Ollama 組合

  • 執行以下命令整合 GPU 資源:
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

五、在 Ollama 部署 Hugging Face 模型

1. 登入 Hugging Face 並建立 API Token

  • 造訪 Hugging Face
  • 搜尋模型,例如:Llama-3.1-TAIDE-LX-8B-Chat-GGUF
huggingface 模型頁面

2. 執行模型

ollama run hf.co/nctu6/Llama-3.1-TAIDE-LX-8B-Chat-GGUF
  • 執行後畫面範例如下:
    對話內容
  • 效能資訊如下:
    模型效能

六、部署自訂微調(Fine-tuned)模型

1. 準備微調資料集

2. 微調工具推薦

3. 匯入微調模型到 Ollama(待續)

🔧 未來將補充 GGUF 格式微調模型的載入方式