过去很长一段时间里，很多人都认为，像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具，必须依赖云端运行。因为它们需要强大的模型推理能力，所以几乎都离不开 OpenAI API、Claude API 或者 Gemini API。也正因为如此，AI 编程虽然很强，但成本一直都不低。

20260526102301 534113

尤其是大型项目。一次完整的代码分析、项目扫描、Agent 推理，往往就会消耗大量 Token。很多开发者可能只是测试几个小时，API 费用就已经开始快速上涨。

但现在，这件事情开始发生变化了。因为最新版的 Ollama，已经正式支持接入 Codex App。也就是说，你本地运行的大模型，现在已经可以直接变成 AI 自动编程 Agent。

20260526102326 219645 scaled

而且最离谱的是：整个过程，甚至不需要联网。以前很多人对本地大模型的印象，其实还停留在“聊天机器人”阶段。比如本地运行一个 Qwen、DeepSeek、Gemma，然后进行简单对话、文本生成、代码补全等等。

但现在已经完全不同了。因为 AI Agent 和普通聊天机器人，本质上是两回事。聊天机器人只能回答问题，但 Agent 已经开始“执行任务”了。

比如：

自动分析项目结构。

自动扫描代码。

自动寻找 Bug。

自动修改文件。

自动创建项目。

甚至自动操作浏览器。

这意味着，本地 AI 已经开始真正具备“干活”的能力。

20260526102444 818964 scaled

我这次测试的时候，最让我震惊的，并不是 AI 能聊天，而是它真的开始接管电脑了。比如我故意准备了一个已经崩掉的空战游戏项目。这个游戏原本已经报错，甚至无法正常运行。

正常情况下，如果是人工修复，我们可能需要：先查看控制台报错。再检查代码逻辑。然后逐步定位问题。最后再尝试修复。但这次，我直接把整个项目丢给了 AI Agent。

结果它会自动开始：

扫描项目文件。

分析代码结构。

定位错误逻辑。

自动修改代码。

修复 Bug。

最后重新运行整个游戏。

最离谱的是，修复完成之后，游戏居然真的恢复正常运行了。整个过程，几乎不需要人工干预。

20260526102519 647440 scaled

而且这还不是最夸张的。真正让我觉得离谱的是：哪怕断网。它依然可以继续工作。因为它调用的是我本地 GPU 上的大模型。整个 AI 推理过程，全部都在本地完成。没有任何 OpenAI API，也没有任何 Token 消耗。以前很多 AI 工具，一旦断网，直接就废了。

但现在，本地 AI Agent 已经开始具备真正的离线能力。这一点，其实非常重要。因为这意味着，未来很多 AI 工作流，可能都会开始从“云端依赖”逐渐转向“本地运行”。

本地部署

1、安装 OpenAI Codex

下载方式：【点击前往】或【备用下载】

如果你下载的是macOS版，注意选择intel 、M 芯片

2、安装新版 Ollama

目前只有最新版Ollama 0.24 版本才完全适配Codex，所以如果你安装的是旧版ollama，一定要将其升级到最新版

下载方式：【点击前往】或【备用下载】

3、下载模型：

在4B~40B消费级显卡能跑的开源模型，首推 Qwen3.6 以及谷歌的 Gemma 4 开源模型，因为无论是模型智力、代码编写、逻辑推理、中文理解等方面，这两款模型的综合评分都是数一数二的！

Qwen3.6 开源模型

安装命令：

ollama run qwen3.6

ollama run qwen3.6:27b

mac 电脑上请选择mlx结尾的适配版

ollama run qwen3.6:27b-mlx

ollama run qwen3.6:35b-mlx

Qwen 3.6 其它尺寸的模型【获取链接】

Qwen 3.6 越狱版模型：【点击下载】

Gemma 4 开源模型

安装命令：

ollama run gemma4

ollama run gemma4:26b

ollama run gemma4:31b

mac 电脑可选模型

ollama run gemma4:e2b-mlx

ollama run gemma4:e4b-mlx

ollama run gemma4:26b-mlx

Gemma 4 其它尺寸模型：【获取链接】

Gemma 4 越狱版模型：【点击下载】

4、对接命令：

ollama launch codex-app

【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型

1、修改Codex的配置文件：

model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"

model_reasoning_effort = "low"

profile = "llamacpp-codex"

model_provider = "llamacpp"

[profiles.llamacpp-codex]

model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"

model_provider = "llamacpp"

model_reasoning_effort = "low"

[profiles.llamacpp-codex.windows]

sandbox = "elevated"

[model_providers.llamacpp]

name = "llama.cpp"

base_url = "http://127.0.0.1:8080/v1/"

wire_api = "responses"

[windows]

sandbox = "elevated"

2、llama.cpp 的启动命令:

llama-server.exe ^

-m "modelsQwen3.6-27B-UD-Q5_K_XL.gguf" ^

-ngl 999 ^

-c 16384 ^

-n 2048 ^

-fa on ^

--jinja ^

--host 127.0.0.1 ^

--port 8080

里面的模型改成你自己的

llama.cpp 部署教程：

Qwen3.6-35B-A3B 越狱版来了！目前最强“无审查”开源模型？6G 显存都能跑，本地 AI 彻底自由了

另外一点让我感触很深的是，现在本地 AI 的硬件门槛，其实已经没有大家想象中那么高了。

很多人以前一提到 AI Agent，第一反应就是：

必须 RTX 4090。

必须 80G 显存。

必须企业级 GPU。

但实际上，现在很多小模型已经完全可以胜任基础 AI 编程任务。

比如：

Qwen 系列。

DeepSeek Coder。

Gemma。

甚至一些 7B、14B 的模型。

最低 6G、8G 显存，现在都已经可以跑起来了。

虽然速度肯定没办法和 4090 相比，但对于很多普通用户来说，已经足够体验“本地 AI 自动编程”这件事情了。

除了修 Bug 之外，我还测试了另外一个非常有意思的玩法：

让 AI 自动开发小游戏。

比如我直接告诉它：

帮我做一个打地鼠小游戏。

结果 AI 会自动创建 HTML、CSS、JavaScript 文件，甚至连 UI 界面和游戏逻辑都会一起完成。

几分钟时间，一个小游戏居然真的能运行起来。

而且效果其实还不错。

最关键的是，这种过程特别有“未来感”。

因为你会明显感觉到：

AI 已经不是在“回答问题”。

而是在真正执行开发任务。

接着，我又测试了另外一个场景。

我让它创建一个苹果官网风格的 AI 产品首页。

结果 AI 自动完成了页面布局、动画、响应式设计、UI 风格，甚至还会自动调整细节。

最终效果，已经开始接近商业级网页设计了。

以前这种事情，可能需要：

UI 设计师。

前端工程师。

动画设计。

CSS 工程师。

但现在，一个 AI Agent，已经开始逐渐具备独立完成整个流程的能力。

这件事情，其实是非常恐怖的。

更夸张的是，现在很多 Agent 已经不仅仅局限于代码开发。

它甚至还能自动打开浏览器、自行搜索、自行浏览网页、自行下载文件，然后自动完成整个操作流程。

这已经越来越像真正的 AI 助手了。

很多人现在才开始意识到：

AI 的真正方向，可能根本不是聊天。

而是：

Agent。

也就是：

真正帮你执行任务的 AI。

而 Ollama，现在正在成为整个本地 AI 生态里非常核心的一环。

以前很多人觉得，Ollama 只是一个简单的本地模型启动工具。

但现在，它已经开始连接越来越多的 AI Agent 工具。

比如：

Codex App。

Continue。

OpenHands。

RooCode。

Aider。

Open WebUI。

这些工具，现在都已经开始支持本地大模型接入。

这意味着：

本地 AI 正在进入真正的 Agent 时代。

以前，AI 更多只是辅助工具。

但现在，它已经开始：

自己分析项目。

自己修改代码。

自己修复 Bug。

自己开发网站。

自己创建游戏。

甚至开始自己操作电脑。

AI 的角色，正在从“聊天工具”，逐渐变成“执行工具”。

而这，可能才是真正 AI 时代的开始。

原创文章，作者：极客智库，如若转载，请注明出处：https://www.leotalk.cn/492.html

OpenAI Codex 彻底免费了！Ollama 接管 AI 编程 Agent，本地大模型开始自动干活！

本地部署

【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型

相关推荐