免费上字幕！本地开源模型、Google AI 两套最强方案！99%的准确率

如果你经常需要给视频添加字幕，或者想把录音、课程、访谈内容快速转成文字，那么 faster-whisper-offline 是一个非常值得尝试的音频转字幕工具。完全免费开源！它是基于 Whisper 语音识别模型，最大的优势就是可以在本地离线运行，不需要把音频上传到第三方平台，隐私性更好，也更适合处理较大的音视频文件。

相比传统在线转字幕工具，faster-whisper-offline 不依赖网络环境，只要电脑配置足够，就可以直接完成语音识别和字幕生成。它支持常见的音频、视频格式，可以将语音内容识别成文本，并导出为常用的字幕文件，比如 SRT 格式，方便后期直接导入剪映、Premiere、Final Cut 等视频剪辑软件中使用。

对于中文内容创作者来说，它的实用性非常高。无论是 YouTube 视频、B站教程、课程录音，还是会议记录，都可以通过它快速生成字幕，大幅减少手动听写的时间。如果搭配较高性能的显卡，转写速度会更快；即使没有显卡，使用 CPU 也能完成基础识别任务。

总的来说，faster-whisper-offline 适合追求效率、隐私和本地化处理的用户。对于需要批量处理视频字幕、自媒体剪辑、课程整理的人来说，它是一款非常实用的离线音频转字幕解决方案。

安装包+模型获取

Faster-whisper-offline 一键安装包：【点击下载】

下载后直接解压打开即可，在根目录下双击打开start 批处理文件，就可以直接本地启动使用！

启动后在左上方选择适合你自己的模型，推荐选择V3模型，效果最佳

当然如果你的电脑硬件不是很强，或者你希望使用更方面的在线模式，那么目前Google AI Studio是最强的选择，每天都是免费的使用额度，正常使用已经足够，关键是音频转文字的准确率极高！因为它是云端的，所以任何电脑都可以使用

Google AI Studio

【链接直达】

模型选择：

推荐使用 Gemini 2.5 Pro ，这是我长期的使用经验，尤其是对中文语言的识别非常准确，明显优于其它模型，当然大家可以自己去测试。

音频转字幕提示词

1、Gemini 2.5 Pro 音频转字幕（高精准）提示词：

你现在是一个“两阶段字幕工作流助手”。

我刚刚上传了一个音频文件。你的任务是引导我完成一个“先确认，再格式化”的字幕处理流程。

**【工作流】**

**【阶段1：分析与确认】(请立即执行)**

1. **高精度转录：** 请你先理解我上传给你的音频文件的内容原意，并逐点列出该内容的摘要。

2. **提取疑问：** 分析稿件，提取所有你觉得不确定、容易出错的“专有名词”或“核心词汇”。

3. **提问与等待：** 向我展示以下两部分内容：

* 【A】该内容的摘要和关键点。

* 【B】你提取的“待确认词汇列表”，并向我提问。

**[重要指令]：**

在完成阶段1之前，绝对不要执行阶段2的格式化。你现在的唯一任务是提问并等待我的回复。

---

**【阶段2：格式化规则】(请你“记住”这套规则)**

**[任务]：** 当我确认了【A】和【B】，并向你提供了“最终确认稿”后，你必须立即转变为“短视频字幕格式化专家”，并严格按照以下所有规则处理该稿件：

1. **严格清洗口水词（关键规则）：**

* **必须**删除所有无意义的“口水词”、“语气词”或“重复词”。你必须对这个规则保持**高度敏感**。

* **示例列表：** “呃”、“啊”、“那个”、“就是”、“然后”、“嗯”、“嘛”、“哼”、“哈”等。

* **特别注意 "呢"：** 像“所以呢”或“这个呢”中的“呢”字，必须被清洗掉。

2. **标点与停顿规则（关键规则）：**

* **只保留** “？”（问号）和 “！”（感叹号）。

* **删除**所有其他的标点符号（包括但不限于句号、逗号、顿号、冒号等）。

* **用“两个空格”替换停顿：** 在所有因“删除标点”或“删除口水词”而产生的**语义停顿处**，统一使用**两个空格**（2个英文半角空格）作为分隔。

* **【强制样本】：** 原始稿：“所以呢，这还要一个功能叫...” 清洗后应为：“所以这还要一个功能叫...” （“所以”后面跟了两个空格）

3. **字幕格式规则（关键）：**

* **单行限制：** 每一条字幕**严格限制为 1 行**。

* **字数限制：** 每一行（即每一条字幕）的文字**不超过 18 个汉字**。

4. **智能断句规则：**

* 基于“单行”和“18字”的限制，你必须将所有长句**智能地拆分**为多条独立的“单行字幕”。

* 断句必须在“自然”的语义停顿处，确保每一行单独拿出来看都不突兀。

5. **风格统一规则：**

* **数字与英文：** 统一所有数字为“阿拉伯数字”（例如：2024，50%）；统一所有英文缩写和专有名词为“大写”（例如：AI, API, LLM, Gemini）。

* **人称统一：** 统一所有指代“非人类实体”（如AI、工具、模型）的“他”、“她”或“它”，全部改为使用“它”。

**[输出要求]：**

（当执行阶段2时）请不要添加任何解释或评论，直接输出最终格式化、清洗并（根据需要）分块完毕的字幕稿件，并去除空行。

生成的字幕非常准确，但是有一个缺点就是：它是不带时间线的，所以我们需要通过【剪映的免安装版】来对音频和时间线进行文稿匹配

1、剪映的免安装版：【点击下载】或【网盘下载】提取码: 8net

2、字幕编辑器 Subtitle Edit 【官方下载】、【备用下载】

2、Gemini 2.5 Pro 直接生成带时间线的字幕稿，提示词如下：

你现在是一个“两阶段AI字幕工作流助手”。

我将上传一个音频文件，你的任务是引导我完成一个“先确认，再格式化”的字幕处理流程，最终目标是生成一份可以直接导入剪映、Premiere Pro、DaVinci Resolve 等剪辑软件的标准 SRT 字幕文件。

请严格按照以下两个阶段执行。

====================

【阶段1：分析与确认】

====================

请在我上传音频后立即执行阶段1。

你的任务包括：

1. 高精度转录与计时

在转录音频内容的同时，必须在后台记录每一句话的真实开始时间和结束时间。

时间戳必须精确到毫秒。

2. 内容摘要

理解音频文件的核心内容，并逐点列出摘要。

3. 提取待确认词汇

分析转录稿，提取所有不确定、容易听错、容易写错的词汇，包括但不限于：

专有名词

产品名

软件名

平台名

模型名

英文缩写

人名

地名

品牌名

技术词汇

容易误识别的中文词

4. 提问并等待确认

只向我展示以下两部分内容：

【A】内容摘要和关键点

【B】待确认词汇列表

重要要求：

在完成阶段1并得到我的确认之前，绝对不要进入阶段2。

阶段1不要输出完整 SRT。

阶段1不要输出完整逐字稿。

阶段1只需要提问并等待我的回复。

====================

【阶段2：格式化与生成SRT】

====================

只有当我明确确认阶段1内容，或向你提供“最终确认稿”后，你才可以进入阶段2。

进入阶段2后，你必须立即转变为“SRT字幕格式化专家”，根据阶段1记录的原始音频时间戳，结合我确认后的内容，生成标准 SRT 字幕。

====================

【阶段2清洗规则】

====================

1. 删除口水词和语气词

必须删除所有无意义的口水词、语气词、重复词。

包括但不限于：

“呃”

“啊”

“那个”

“就是”

“然后”

“嗯”

“嘛”

“哼”

“哈”

“额”

“这个”

“那个”

“你知道吧”

“对吧”

“是不是”

注意：

如果这些词在句子中没有实际含义，必须删除。

如果删除后产生语义停顿，用两个英文半角空格代替。

2. 特别处理“呢”

像下面这些表达中的“呢”必须删除：

“所以呢”

“这个呢”

“那么呢”

“这里呢”

“它呢”

示例：

原始稿：

所以呢，这还要一个功能叫

清洗后：

所以这还要一个功能叫

3. 标点规则

只允许保留以下标点：

？

！

必须删除其他所有标点，包括但不限于：

。

，

、

：

；

“

”

‘

’

（

）

《

》

——

……

4. 停顿规则

因删除标点或删除口水词产生的自然语义停顿，必须统一使用两个英文半角空格表示。

示例：

原始稿：

所以呢，这还要一个功能叫 AI 搜索

清洗后：

所以这还要一个功能叫 AI 搜索

5. 字幕行规则

每条字幕只能有一行文字。

每条字幕文字不超过18个汉字。

不能一条字幕分成两行。

不能在同一条字幕里出现换行。

6. 智能断句规则

如果一句话超过18个汉字，必须拆分为多条字幕。

拆分时必须根据自然语义停顿拆分。

每条字幕单独看也要尽量自然，不要生硬截断。

不能为了凑字数把固定词组拆开。

7. 数字和英文规则

所有数字统一为阿拉伯数字。

例如：

二零二六改为 2026

百分之五十改为 50%

所有英文缩写和专有名词统一为大写。

例如：

ai 改为 AI

api 改为 API

llm 改为 LLM

gemini 改为 GEMINI

windows 改为 WINDOWS

8. 人称统一规则

所有指代非人类实体的“他”“她”“它”，统一改为“它”。

非人类实体包括但不限于：

工具

软件

模型

平台

网站

系统

插件

程序

====================

【SRT时间轴强制规则】

====================

这是最重要的规则，必须严格执行。

1. 每个时间戳必须严格使用以下格式：

HH:MM:SS,mmm

其中：

HH = 2位小时

MM = 2位分钟

SS = 2位秒

mmm = 3位毫秒

正确示例：

00:00:01,580

00:00:03,880

00:01:05,480

01:02:03,456

错误示例：

00:01:580

00:03,880

00:05,480

0:00:03,880

00:00:03.880

00:00:03:880

[00:00:03,880]

2. 时间轴必须严格使用以下格式：

开始时间 --> 结束时间

正确示例：

00:00:01,580 --> 00:00:03,880

错误示例：

00:00:01,580-00:00:03,880

00:00:01,580 — 00:00:03,880

00:00:01,580 → 00:00:03,880

[00:00:01,580 --> 00:00:03,880]

3. 时间换算规则

如果原始时间是 1.58 秒，必须写成：

00:00:01,580

如果原始时间是 3.88 秒，必须写成：

00:00:03,880

如果原始时间是 65.48 秒，必须写成：

00:01:05,480

如果原始时间是 125.006 秒，必须写成：

00:02:05,006

4. 时间轴位置规则

每一条字幕必须严格由以下4部分组成：

第1行：字幕序号，只能是数字

第2行：时间轴，格式必须是 HH:MM:SS,mmm --> HH:MM:SS,mmm

第3行：字幕文本，只能有一行

第4行：空行

正确格式：

00:00:00,500 --> 00:00:01,580

大家好这里是极客智库

00:00:01,580 --> 00:00:03,880

如果现在还在用浏览器搜索

错误格式：

大家好这里是极客智库

00:00:00,500 --> 00:00:01,580

错误格式：

00:00:00,500 --> 00:01:580

大家好这里是极客智库

错误格式：

00:00:00,500 --> 00:00:01,580

大家好这里是极客智库

00:00:01,580 --> 00:00:03,880

如果现在还在用浏览器搜索

5. 时间连续规则

字幕时间不能重叠。

后一条字幕的开始时间必须大于或等于前一条字幕的结束时间。

如果一句长句被拆分成多条字幕，必须根据口播节奏合理分配每条短字幕的开始和结束时间。

每条字幕建议持续不少于0.8秒，除非原音频语速非常快。

====================

【最终输出强制规则】

====================

阶段2最终输出必须是纯 SRT 内容。

绝对禁止输出以下内容：

禁止输出任何解释

禁止输出任何标题

禁止输出任何总结

禁止输出任何提示语

禁止输出 Markdown

禁止输出代码块

禁止输出 ```srt

禁止输出 ```

禁止输出“以下是”

禁止输出“已完成”

禁止输出“这是字幕”

禁止输出“字幕文件如下”

禁止输出“Model”

禁止输出“Thinking”

禁止输出“tokens”

禁止输出“Google Search Suggestions”

禁止输出聊天记录

禁止输出用户上传文件名

禁止输出音频文件名

禁止输出阶段说明

禁止输出项目符号

禁止输出 [字幕序号]

禁止输出 [开始时间]

禁止输出 [结束时间]

禁止输出 [单行字幕文本]

最终输出第一行必须是数字：

第一行之前不得出现任何文字、空格、空行或说明。

每条字幕之间必须有一个空行。

字幕序号必须从1开始，连续递增，不能跳号，不能重复。

最终输出必须严格类似下面这样：

00:00:00,500 --> 00:00:01,580

大家好这里是极客智库

00:00:01,580 --> 00:00:03,880

如果现在还在用浏览器搜索

00:00:03,880 --> 00:00:05,480

那么确实有点落后了

请严格检查后再输出，确保每条字幕都符合标准 SRT 格式。

原创文章，作者：AI 智库，如若转载，请注明出处：https://www.leotalk.cn/396.html

免费上字幕！本地开源模型、Google AI 两套最强方案！99%的准确率

安装包+模型获取

Google AI Studio

【链接直达】

模型选择：

音频转字幕提示词

1、剪映的免安装版 ：【点击下载】或【网盘下载】提取码: 8net

相关推荐

Claude Code + Ollama 太强了！免费本地 AI 开发助手来了！无需 Claude API

Hermes + Qwen3.6：本地最强 Agent 组合！零成本、无限 Token

爆火的“无审查”AI 视频模型来了！Sulphur 2 本地部署实测：8G 显存也能跑！

Windows 本地 AI 又升级了！llama.cpp 官方支持 CUDA 13 / Vulkan / HIP / SYCL，一键跑 GGUF 无审查模型！

1、剪映的免安装版：【点击下载】或【网盘下载】提取码: 8net