估计很多人不相信这是真的，一个非常大的误解，大多数人都会认为：35B 大模型 = 必须 24G 显存才能跑，但最近我实测发现，即使只有一张 RTX 3070 8G 显卡，只要搭配足够的内存，再通过 llama.cpp 的 CPU Offload 和 MoE 优化，居然真的可以跑起来 Qwen Qwen3.6-35B-A3B 模型。速度还非常快！

甚至：

支持长上下文
支持 Flash Attention
支持多模态（视觉）
支持本地网页 UI

这篇文章，就带大家完整实测与部署

一、我的硬件配置

本次测试平台：

CPU：i7-12700
GPU：RTX 3070 8GB
RAM：32G × 2
系统：Windows 11
推理框架：llama.cpp CUDA 12.4

二、为什么 8G 显存也能跑 35B？

这是这次测试最关键的地方。

Qwen3.6-35B-A3B：

35B 总参数
每次只激活约 3B

也就是说：并不是所有参数同时参与推理

因此：GPU 不需要一次性加载完整 35B ，再结合 llama.cpp 的：CPU Offload ；就能实现：GPU 跑注意力层、RAM 跑专家层。这也是：RTX3070 8G 成功运行 35B 的核心原因！

三、部署教程

1、下载 llama.cpp

推荐下载：【Github下载】、【网盘下载】

llama.cpp 最新版支持 N卡、A卡、I卡还有纯CPU运行，同时也可以在Mac、Linux系统上运行！所以几乎可以在任何电脑上进行运行。

2、安装显卡驱动，比如 N卡选择 CUDA 13.1，如果是 A卡请自行升级到最新版即可

【驱动下载】或【打包下载】

四、下载模型

本次使用模型：Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

量化格式：Q4_K_M

这是目前：

精度
显存
速度

综合平衡最好的格式之一。

模型下载：

【Huggingface下载】或【网盘下载】

五、多模态模型注意事项（非常重要）

这里很多人会踩坑。

Qwen3.6 多模态模型：必须搭配 mmproj

否则：

图片上传按钮灰色
无法识图
Vision 不工作

例如：mmproj-BF16.gguf

六、最终启动命令（3070 8G 优化版）

下面是我最终稳定运行的配置：

@echo off

chcp 65001 >nul

cd /d C:UsersjikezhikuDesktopllama-b9196-bin-win-cuda-12.4-x64

llama-server.exe ^

-m "modelsQwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^

--mmproj "modelsmmproj-BF16.gguf" ^

-ngl 99 ^

--n-cpu-moe 999 ^

--flash-attn on ^

--jinja ^

-c 32768 ^

-t 12 ^

-b 512 ^

-ub 128 ^

--cache-type-k q4_0 ^

--cache-type-v q4_0 ^

--mlock ^

--host 127.0.0.1 ^

--port 8080

pause

注意将上面的llama.cpp的存放路径改成你自己的，因为我是放在桌面上的，所以路径是：C:UsersjikezhikuDesktopllama-b9196-bin-win-cuda-12.4-x64 务必改成你自己的路径！

将上面的启动命令另存为启动.bat 批处理脚本，打开运行即可！

成功运行后在浏览器上访问本地的地址：127.0.0.1:8080 就可以正式使用！

原创文章，作者：AI 智库，如若转载，请注明出处：https://www.leotalk.cn/454.html

RTX3070 成功跑 Qwen3.6-35B 多模态AI大模型！部署教程（优化脚本）

一、我的硬件配置

二、为什么 8G 显存也能跑 35B？

三、部署教程

1、下载 llama.cpp

llama.cpp 最新版支持 N卡、A卡、I卡 还有纯CPU运行，同时也可以在Mac、Linux系统上运行！所以几乎可以在任何电脑上进行运行。

四、下载模型

模型下载：

【Huggingface下载】或 【网盘下载】

五、多模态模型注意事项（非常重要）

六、最终启动命令（3070 8G 优化版）

相关推荐

Claude Code + Ollama 太强了！免费本地 AI 开发助手来了！无需 Claude API

爆火的“无审查”AI 视频模型来了！Sulphur 2 本地部署实测：8G 显存也能跑！

Hermes + Qwen3.6：本地最强 Agent 组合！零成本、无限 Token

Google I/O 彻底炸了！Gemini 3.5 Flash + Gemini Omni，AI 开始进入“执行时代”

免费上字幕！本地开源模型、Google AI 两套最强方案！99%的准确率

Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

llama.cpp 最新版支持 N卡、A卡、I卡还有纯CPU运行，同时也可以在Mac、Linux系统上运行！所以几乎可以在任何电脑上进行运行。

【Huggingface下载】或【网盘下载】