Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

admin 2026-05-18

前言

llama.cpp 是一款广受欢迎的开源工具，它允许用户在本地运行各种大型语言模型（LLM），无需云服务或 API。最近的更新带来了重大突破，现在支持 CUDA 13、Vulkan、HIP 和 SYCL 等多种后端，大幅提升了在不同硬件上的兼容性。

GGUF（GPT-Generated Unified Format）是一种专门为 llama.cpp 设计的模型格式。它具有以下优势：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake ..
cmake --build . --config Release

推荐从 Hugging Face 下载 GGUF 格式的模型：

# 以 Qwen 模型为例
huggingface-cli download your-username/Qwen-GGUF Qwen-7B-Q4_K_M.gguf

./llama-server -m Qwen-7B-Q4_K_M.gguf -c 4096 --host 0.0.0.0 --port 8080

使用更高强度的量化，如 Q2_K 而非 Q8_0，可以显著降低内存需求。一般来说，7B 模型使用 Q4_K_M 量化后只需要约 4GB 内存。

确保使用支持 AVX2 的 CPU，或使用 GPU 加速。对于 NVIDIA 用户，CUDA 后端能提供最佳性能。AMD 用户可以尝试 Vulkan 或 HIP 后端。

llama.cpp 的更新让本地 AI 模型运行变得更加简单和高效。无论你使用的是 NVIDIA、AMD 还是 Intel 显卡，都能找到合适的加速方案。快去试试吧！

评论功能已集成 Giscus

使用 GitHub 账号登录后可发表评论