Windows 本地 AI 又升级了!llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL,一键跑 GGUF 无审查模型!

最近,llama.cpp 又迎来了一次非常重要的更新。对于经常在 Windows 上折腾本地 AI 大模型的用户来说,这次更新可以说相当实用。

因为现在官方已经开始真正意义上的:“降低 Windows 本地 AI 的使用门槛”!

20260518064042 404956 scaled

20260518110005 256951 scaled

以前很多人第一次接触本地大模型,最头疼的其实不是模型本身,而是各种环境问题:

  • CUDA 版本不匹配
  • DLL 缺失
  • 驱动不兼容
  • CMake 编译失败
  • 环境变量错误
  • Vulkan / HIP 配置复杂
  • Windows 编译过程报错

尤其很多新手,教程还没看完,就已经被环境问题劝退了。

但现在不一样了。

在 llama.cpp 最新发布的 b9196 版本中,官方已经直接提供了多种 Windows 预编译版本,很多情况下已经可以做到:下载 → 解压 → 双击运行!这对于 Windows 本地 AI 用户来说,绝对算是一件好事。

20260518105919 469897 scaled

llama.cpp 是什么?

llama.cpp 官方 GitHub 是目前最流行的本地 GGUF 模型推理框架之一。

20260518064922 507431

官方下载:【点击前往】 或 【网盘下载

很多大家熟悉的本地模型,其实都可以通过 llama.cpp 运行:

  • Qwen
  • Llama
  • DeepSeek
  • Gemma
  • Hermes
  • Dolphin
  • Mistral
  • Mixtral

尤其现在 GGUF 生态越来越成熟,很多模型都会第一时间发布 GGUF 量化版本。

而 llama.cpp 最大的优势就是:

轻量
跨平台
支持 GPU
支持 CPU
支持 GGUF

而且现在甚至已经支持:

多模态
图片理解
Vision 模型
OpenAI 风格 API
网页聊天界面

 

llama.cpp 最新 Windows 版本支持什么?

目前官方 Release 页面已经直接提供:

  • Windows x64 CPU
  • Windows x64 CUDA 12.4
  • Windows x64 CUDA 13.1
  • Windows x64 Vulkan
  • Windows x64 HIP Radeon
  • Windows x64 SYCL
  • Windows ARM64 CPU

这意味着:

NVIDIA 用户

可以直接选择:CUDA 12.4 或者 CUDA 13.1

如果你是:

  • RTX 3060
  • RTX 4060
  • RTX 4070
  • RTX 4080
  • RTX 4090

基本建议优先 CUDA。

AMD 用户

现在终于不用完全依赖 ROCm 了。

你可以:HIP 或者 Vulkan

很多情况下,Vulkan 反而比 HIP 更稳定。

Intel 用户

现在 Intel 核显、Arc 独显也终于有得玩了。

可以尝试:SYCL 或者 Vulkan

虽然性能和 NVIDIA 还有差距,但已经能正常跑很多 GGUF 小模型。

如何启动 GGUF 模型?

例如:gemma-4-31b-jang-crack-Q4_K_M.gguf

启动方式其实非常简单。

进入 llama.cpp 目录:

llama-server.exe -m models你的模型.gguf -ngl 999

 

其中:-ngl 999 代表尽量把模型全部加载到 GPU。

启动成功后,浏览器打开:http://127.0.0.1:8080

即可进入网页聊天界面。

如何启动 GGUF 多模态视觉模型?

加载视觉模型需要2个文件,一个是主模型文件,另外一个就是 mmproj 视觉模型加载文件

目前支持较好的包括:

Qwen2-VL / Qwen2.5-VL

目前中文视觉能力最强之一:

  • OCR
  • 截图理解
  • 网页识别
  • 中文图片问答

表现都非常强。

主模型下载:【点击前往】或 【网盘下载

20260518071309 620194

 

比如我让它给做视频封面的点击率测试,居然可以做到100%正确!当然它的功能远不止这些…….

 

多模态模型启用:

llama-server.exe -m "models主模型.gguf" --mmproj "modelsmmproj视觉模型.gguf" -ngl 999

 

 

无审查模型:

1、Llama3-8b-DarkIdol 是比较热门的无审查的开源大模型

支持中文、日文和英语,非常适合角色扮演。

模型下载:【点击前往】或 【打包下载】打包版下载即可使用无需合并转换格式

下载合并为GGUF模型格式

huggingface-cli download aifeifei798/llama3-8B-DarkIdol-2.3-Uncensored-32K --local-dir DarkIdol-HF --local-dir-use-symlinks False

然后用 llama.cpp 转 GGUF:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt
python convert_hf_to_gguf.py ../DarkIdol-HF --outtype f16 --outfile ../DarkIdol-F16.gguf

需要量化成 Q4_K_M的话可以命令:

llama-quantize.exe ../DarkIdol-F16.gguf ../DarkIdol-Q4_K_M.gguf Q4_K_M

 

 

20260518065228 136336

 

 

2、Gemma-4-31b-jang-crack-Q4_K_M 是 Google 开源的无审查大模型

这是一个在本地跑:听话、高效、不乱加道德判断的AI

  • 推理能力扎实:在数学和代码相关任务上表现突出,尤其长上下文处理(原生支持128K,部分可扩展到256K)。你甚至可以把整个项目代码库或一本技术手册一次性喂给它,它不会轻易“失忆”。
  • 参数效率高:
    26B MoE版本激活参数不多,跑起来相对轻快,在很多基准上效率比同级别模型更好。
  • 开源友好:
    Apache 2.0协议,允许修改、商用和二次分发,这对想自己折腾或做副业的朋友来说非常实用。

官方版的主要问题是安全对齐层比较厚,很多正常的技术探讨或创意场景容易被挡住。越狱版通过社区技术(abliteration等)移除了这部分限制,保留了绝大部分原始能力。

模型下载:【点击前往】或 【打包下载

20260518094514 729207

 

更多越狱模型:

1、Hermes-3 【点击下载

2、Qwen 越狱模型【点击下载

3、Deepseek 越狱模型【点击下载

多种模态自由切换运行:

如果我们同时下载了多种不同的模型,为了方便统一管理,在运行的时候我们可以使用零度的这个脚本,来实现多模型自由切换运行,注意将里面的模型名称改成你自己的!

@echo off
chcp 65001 >nul
cd /d C:UsersLINGDUDesktopllama-b9196-bin-win-cuda-13.1-x64
echo 请选择模型:
echo 1. Gemma 31B
echo 2. Qwen VL 多模态
echo 3. DeepSeek
set /p choice=输入数字:
if "%choice%"=="1" llama-server.exe -m "modelsgemma-4-31b-jang-crack-Q4_K_M.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "modelsQwen2.5-VL-7B-Instruct-Q4_K_M.gguf" --mmproj "modelsmmproj-BF16.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "modelsdeepseek.gguf" -ngl 999
pause

将上方的命令保存到文本文档里,另存为的时候选择utf-8格式,最后将txt后缀改成bat即可!双击运行即可看到下方的选项

 

 

20260518070758 415709

 

输入模型对应的数字就可以成功启动模型

20260518070850 012830 scaled20260518070854 219316 scaled

 

 

20260518110131 957575 scaled

原创文章,作者:AI 智库,如若转载,请注明出处:https://www.leotalk.cn/316.html

上一篇 1天前
下一篇 19分钟前

相关推荐