最近，llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说，这次更新可以说相当实用。

因为现在官方已经开始真正意义上的：“降低 Windows 本地 AI 的使用门槛”！

以前很多人第一次接触本地大模型，最头疼的其实不是模型本身，而是各种环境问题：

CUDA 版本不匹配
DLL 缺失
驱动不兼容
CMake 编译失败
环境变量错误
Vulkan / HIP 配置复杂
Windows 编译过程报错

尤其很多新手，教程还没看完，就已经被环境问题劝退了。

但现在不一样了。

在 llama.cpp 最新发布的 b9196 版本中，官方已经直接提供了多种 Windows 预编译版本，很多情况下已经可以做到：下载 → 解压 → 双击运行！这对于 Windows 本地 AI 用户来说，绝对算是一件好事。

llama.cpp 是什么？

llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。

官方下载：【点击前往】或【网盘下载】

很多大家熟悉的本地模型，其实都可以通过 llama.cpp 运行：

Qwen
Llama
DeepSeek
Gemma
Hermes
Dolphin
Mistral
Mixtral

尤其现在 GGUF 生态越来越成熟，很多模型都会第一时间发布 GGUF 量化版本。

而 llama.cpp 最大的优势就是：

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持：

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

llama.cpp 最新 Windows 版本支持什么？

目前官方 Release 页面已经直接提供：

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

这意味着：

NVIDIA 用户

可以直接选择：CUDA 12.4 或者 CUDA 13.1

如果你是：

RTX 3060
RTX 4060
RTX 4070
RTX 4080
RTX 4090

基本建议优先 CUDA。

AMD 用户

现在终于不用完全依赖 ROCm 了。

你可以：HIP 或者 Vulkan

很多情况下，Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显、Arc 独显也终于有得玩了。

可以尝试：SYCL 或者 Vulkan

虽然性能和 NVIDIA 还有差距，但已经能正常跑很多 GGUF 小模型。

如何启动 GGUF 模型？

例如：gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方式其实非常简单。

进入 llama.cpp 目录：

llama-server.exe -m models你的模型.gguf -ngl 999

其中：-ngl 999 代表尽量把模型全部加载到 GPU。

启动成功后，浏览器打开：http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型？

加载视觉模型需要2个文件，一个是主模型文件，另外一个就是 mmproj 视觉模型加载文件

目前支持较好的包括：

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强之一：

OCR
截图理解
网页识别
中文图片问答

表现都非常强。

主模型下载：【点击前往】或【网盘下载】

比如我让它给做视频封面的点击率测试，居然可以做到100%正确！当然它的功能远不止这些…….

多模态模型启用：

llama-server.exe -m "models主模型.gguf" --mmproj "modelsmmproj视觉模型.gguf" -ngl 999

无审查模型：

1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语，非常适合角色扮演。

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF：

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

pip install -r requirements.txt

python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令：

llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型

这是一个在本地跑：听话、高效、不乱加道德判断的AI

推理能力扎实：在数学和代码相关任务上表现突出，尤其长上下文处理（原生支持128K，部分可扩展到256K）。你甚至可以把整个项目代码库或一本技术手册一次性喂给它，它不会轻易“失忆”。
参数效率高：
26B MoE版本激活参数不多，跑起来相对轻快，在很多基准上效率比同级别模型更好。
开源友好：
Apache 2.0协议，允许修改、商用和二次分发，这对想自己折腾或做副业的朋友来说非常实用。

官方版的主要问题是安全对齐层比较厚，很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术（abliteration等）移除了这部分限制，保留了绝大部分原始能力。

Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

llama.cpp 是什么？

官方下载：【点击前往】或【网盘下载】

llama.cpp 最新 Windows 版本支持什么？

NVIDIA 用户

AMD 用户

Intel 用户

如何启动 GGUF 模型？

如何启动 GGUF 多模态视觉模型？

Qwen2-VL / Qwen2.5-VL

主模型下载：【点击前往】或【网盘下载】

无审查模型：

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或【打包下载】

更多越狱模型：

多种模态自由切换运行：

Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

llama.cpp 是什么？

官方下载：【点击前往】 或 【网盘下载】

llama.cpp 最新 Windows 版本支持什么？

NVIDIA 用户

AMD 用户

Intel 用户

如何启动 GGUF 模型？

如何启动 GGUF 多模态视觉模型？

Qwen2-VL / Qwen2.5-VL

主模型下载：【点击前往】或 【网盘下载】

无审查模型：

模型下载：【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或 【打包下载】

更多越狱模型：

多种模态自由切换运行：

相关推荐

Hermes Agent「爱马仕龙虾」入门指南：安装初体验与配置微信聊天

爆火的“无审查”AI 视频模型来了！Sulphur 2 本地部署实测：8G 显存也能跑！

腾讯云 LightVela 免费提供1个月的云端 Hermes Agent 服务

「超简单」Claude 桌面客户端 接入自定义 API + 小坑记录

使用 CC Switch AI 统一管理工具，根治 Claude 桌面端更新报错

「不装软件」解决 Claude 桌面端更新后，无法使用第三方 API 的问题

官方下载：【点击前往】或【网盘下载】

主模型下载：【点击前往】或【网盘下载】

模型下载：【点击前往】或【打包下载】打包版下载即可使用无需合并转换格式

模型下载：【点击前往】或【打包下载】

「超简单」Claude 桌面客户端接入自定义 API + 小坑记录