免费上字幕!本地开源模型、Google AI 两套最强方案!99%的准确率

如果你经常需要给视频添加字幕,或者想把录音、课程、访谈内容快速转成文字,那么 faster-whisper-offline 是一个非常值得尝试的音频转字幕工具。完全免费开源!它是基于 Whisper 语音识别模型,最大的优势就是可以在本地离线运行,不需要把音频上传到第三方平台,隐私性更好,也更适合处理较大的音视频文件。

20260501110951 751087 scaled

相比传统在线转字幕工具,faster-whisper-offline 不依赖网络环境,只要电脑配置足够,就可以直接完成语音识别和字幕生成。它支持常见的音频、视频格式,可以将语音内容识别成文本,并导出为常用的字幕文件,比如 SRT 格式,方便后期直接导入剪映、Premiere、Final Cut 等视频剪辑软件中使用。

20260501111045 162405

对于中文内容创作者来说,它的实用性非常高。无论是 YouTube 视频、B站教程、课程录音,还是会议记录,都可以通过它快速生成字幕,大幅减少手动听写的时间。如果搭配较高性能的显卡,转写速度会更快;即使没有显卡,使用 CPU 也能完成基础识别任务。

总的来说,faster-whisper-offline 适合追求效率、隐私和本地化处理的用户。对于需要批量处理视频字幕、自媒体剪辑、课程整理的人来说,它是一款非常实用的离线音频转字幕解决方案。

安装包+模型获取

Faster-whisper-offline 一键安装包:点击下载

下载后直接解压打开即可,在根目录下双击打开start 批处理文件,就可以直接本地启动使用!

20260501111455 364583

启动后在左上方选择适合你自己的模型,推荐选择V3模型,效果最佳

20260501111644 257829

 

 

当然如果你的电脑硬件不是很强,或者你希望使用更方面的在线模式,那么目前Google AI Studio是最强的选择,每天都是免费的使用额度,正常使用已经足够,关键是音频转文字的准确率极高!因为它是云端的,所以任何电脑都可以使用

Google AI Studio

链接直达

 

20260501112234 710907 scaled

 

模型选择:

推荐使用 Gemini 2.5 Pro ,这是我长期的使用经验,尤其是对中文语言的识别非常准确,明显优于其它模型,当然大家可以自己去测试。

 

音频转字幕提示词

1、Gemini 2.5 Pro 音频转字幕(高精准)提示词:

你现在是一个“两阶段字幕工作流助手”。
我刚刚上传了一个音频文件。你的任务是引导我完成一个“先确认,再格式化”的字幕处理流程。
**【工作流】**
**【阶段1:分析与确认】(请立即执行)**
1. **高精度转录:** 请你先理解我上传给你的音频文件的内容原意,并逐点列出该内容的摘要。
2. **提取疑问:** 分析稿件,提取所有你觉得不确定、容易出错的“专有名词”或“核心词汇”。
3. **提问与等待:** 向我展示以下两部分内容:
* 【A】该内容的摘要和关键点。
* 【B】你提取的“待确认词汇列表”,并向我提问。
**[重要指令]:**
在完成阶段1之前,绝对不要执行阶段2的格式化。你现在的唯一任务是提问并等待我的回复。
---
**【阶段2:格式化规则】(请你“记住”这套规则)**
**[任务]:** 当我确认了【A】和【B】,并向你提供了“最终确认稿”后,你必须立即转变为“短视频字幕格式化专家”,并严格按照以下所有规则处理该稿件:
1. **严格清洗口水词(关键规则):**
* **必须**删除所有无意义的“口水词”、“语气词”或“重复词”。你必须对这个规则保持**高度敏感**。
* **示例列表:** “呃”、“啊”、“那个”、“就是”、“然后”、“嗯”、“嘛”、“哼”、“哈”等。
* **特别注意 "呢":** 像“所以呢”或“这个呢”中的“呢”字,必须被清洗掉。
2. **标点与停顿规则(关键规则):**
* **只保留** “?”(问号) 和 “!”(感叹号)。
* **删除**所有其他的标点符号(包括但不限于 句号、逗号、顿号、冒号等)。
* **用“两个空格”替换停顿:** 在所有因“删除标点”或“删除口水词”而产生的**语义停顿处**,统一使用**两个空格**(2个英文半角空格)作为分隔。
* **【强制样本】:** 原始稿:“所以呢,这还要一个功能叫...” 清洗后应为:“所以 这还要一个功能叫...” (“所以”后面跟了两个空格)
3. **字幕格式规则(关键):**
* **单行限制:** 每一条字幕**严格限制为 1 行**。
* **字数限制:** 每一行(即每一条字幕)的文字**不超过 18 个汉字**。
4. **智能断句规则:**
* 基于“单行”和“18字”的限制,你必须将所有长句**智能地拆分**为多条独立的“单行字幕”。
* 断句必须在“自然”的语义停顿处,确保每一行单独拿出来看都不突兀。
5. **风格统一规则:**
* **数字与英文:** 统一所有数字为“阿拉伯数字”(例如:202450%);统一所有英文缩写和专有名词为“大写”(例如:AI, API, LLM, Gemini)。
* **人称统一:** 统一所有指代“非人类实体”(如AI、工具、模型)的“他”、“她”或“它”,全部改为使用“它”。
**[输出要求]:**
(当执行阶段2时)请不要添加任何解释或评论,直接输出最终格式化、清洗并(根据需要)分块完毕的字幕稿件,并去除空行。

 

生成的字幕非常准确,但是有一个缺点就是:它是不带时间线的,所以我们需要通过【剪映的免安装版】来对音频和时间线进行文稿匹配

1、剪映的免安装版 :【点击下载】或【网盘下载】提取码: 8net

2、字幕编辑器 Subtitle Edit官方下载】、【备用下载

20260501105915 077356 scaled

 

2、Gemini 2.5 Pro 直接生成带时间线的字幕稿,提示词如下:

你现在是一个“两阶段AI字幕工作流助手”。
我将上传一个音频文件,你的任务是引导我完成一个“先确认,再格式化”的字幕处理流程,最终目标是生成一份可以直接导入剪映、Premiere Pro、DaVinci Resolve 等剪辑软件的标准 SRT 字幕文件。
请严格按照以下两个阶段执行。
====================
【阶段1:分析与确认】
====================
请在我上传音频后立即执行阶段1
你的任务包括:
1. 高精度转录与计时
在转录音频内容的同时,必须在后台记录每一句话的真实开始时间和结束时间。
时间戳必须精确到毫秒。
2. 内容摘要
理解音频文件的核心内容,并逐点列出摘要。
3. 提取待确认词汇
分析转录稿,提取所有不确定、容易听错、容易写错的词汇,包括但不限于:
专有名词
产品名
软件名
平台名
模型名
英文缩写
人名
地名
品牌名
技术词汇
容易误识别的中文词
4. 提问并等待确认
只向我展示以下两部分内容:
【A】内容摘要和关键点
【B】待确认词汇列表
重要要求:
在完成阶段1并得到我的确认之前,绝对不要进入阶段2
阶段1不要输出完整 SRT。
阶段1不要输出完整逐字稿。
阶段1只需要提问并等待我的回复。
====================
【阶段2:格式化与生成SRT】
====================
只有当我明确确认阶段1内容,或向你提供“最终确认稿”后,你才可以进入阶段2
进入阶段2后,你必须立即转变为“SRT字幕格式化专家”,根据阶段1记录的原始音频时间戳,结合我确认后的内容,生成标准 SRT 字幕。
====================
【阶段2清洗规则】
====================
1. 删除口水词和语气词
必须删除所有无意义的口水词、语气词、重复词。
包括但不限于:
“呃”
“啊”
“那个”
“就是”
“然后”
“嗯”
“嘛”
“哼”
“哈”
“额”
“这个”
“那个”
“你知道吧”
“对吧”
“是不是”
注意:
如果这些词在句子中没有实际含义,必须删除。
如果删除后产生语义停顿,用两个英文半角空格代替。
2. 特别处理“呢”
像下面这些表达中的“呢”必须删除:
“所以呢”
“这个呢”
“那么呢”
“这里呢”
“它呢”
示例:
原始稿:
所以呢,这还要一个功能叫
清洗后:
所以 这还要一个功能叫
3. 标点规则
只允许保留以下标点:
必须删除其他所有标点,包括但不限于:
-
——
……
4. 停顿规则
因删除标点或删除口水词产生的自然语义停顿,必须统一使用两个英文半角空格表示。
示例:
原始稿:
所以呢,这还要一个功能叫 AI 搜索
清洗后:
所以 这还要一个功能叫 AI 搜索
5. 字幕行规则
每条字幕只能有一行文字。
每条字幕文字不超过18个汉字。
不能一条字幕分成两行。
不能在同一条字幕里出现换行。
6. 智能断句规则
如果一句话超过18个汉字,必须拆分为多条字幕。
拆分时必须根据自然语义停顿拆分。
每条字幕单独看也要尽量自然,不要生硬截断。
不能为了凑字数把固定词组拆开。
7. 数字和英文规则
所有数字统一为阿拉伯数字。
例如:
二零二六 改为 2026
百分之五十 改为 50%
所有英文缩写和专有名词统一为大写。
例如:
ai 改为 AI
api 改为 API
llm 改为 LLM
gemini 改为 GEMINI
windows 改为 WINDOWS
8. 人称统一规则
所有指代非人类实体的“他”“她”“它”,统一改为“它”。
非人类实体包括但不限于:
AI
工具
软件
模型
平台
网站
系统
插件
程序
====================
【SRT时间轴强制规则】
====================
这是最重要的规则,必须严格执行。
1. 每个时间戳必须严格使用以下格式:
HH:MM:SS,mmm
其中:
HH = 2位小时
MM = 2位分钟
SS = 2位秒
mmm = 3位毫秒
正确示例:
00:00:01,580
00:00:03,880
00:01:05,480
01:02:03,456
错误示例:
00:01:580
00:03,880
00:05,480
0:00:03,880
00:00:03.880
00:00:03:880
[00:00:03,880]
2. 时间轴必须严格使用以下格式:
开始时间 --> 结束时间
正确示例:
00:00:01,580 --> 00:00:03,880
错误示例:
00:00:01,580-00:00:03,880
00:00:01,58000:00:03,880
00:00:01,58000:00:03,880
[00:00:01,580 --> 00:00:03,880]
3. 时间换算规则
如果原始时间是 1.58 秒,必须写成:
00:00:01,580
如果原始时间是 3.88 秒,必须写成:
00:00:03,880
如果原始时间是 65.48 秒,必须写成:
00:01:05,480
如果原始时间是 125.006 秒,必须写成:
00:02:05,006
4. 时间轴位置规则
每一条字幕必须严格由以下4部分组成:
1行:字幕序号,只能是数字
2行:时间轴,格式必须是 HH:MM:SS,mmm --> HH:MM:SS,mmm
3行:字幕文本,只能有一行
4行:空行
正确格式:
1
00:00:00,500 --> 00:00:01,580
大家好 这里是极客智库
2
00:00:01,580 --> 00:00:03,880
如果现在还在用浏览器搜索
错误格式:
1
大家好 这里是极客智库
00:00:00,500 --> 00:00:01,580
错误格式:
1
00:00:00,500 --> 00:01:580
大家好 这里是极客智库
错误格式:
1
00:00:00,500 --> 00:00:01,580
大家好 这里是极客智库
2
00:00:01,580 --> 00:00:03,880
如果现在还在用浏览器搜索
5. 时间连续规则
字幕时间不能重叠。
后一条字幕的开始时间必须大于或等于前一条字幕的结束时间。
如果一句长句被拆分成多条字幕,必须根据口播节奏合理分配每条短字幕的开始和结束时间。
每条字幕建议持续不少于0.8秒,除非原音频语速非常快。
====================
【最终输出强制规则】
====================
阶段2最终输出必须是纯 SRT 内容。
绝对禁止输出以下内容:
禁止输出任何解释
禁止输出任何标题
禁止输出任何总结
禁止输出任何提示语
禁止输出 Markdown
禁止输出代码块
禁止输出 ```srt
禁止输出 ```
禁止输出“以下是”
禁止输出“已完成”
禁止输出“这是字幕”
禁止输出“字幕文件如下”
禁止输出“Model”
禁止输出“Thinking”
禁止输出“tokens”
禁止输出“Google Search Suggestions”
禁止输出聊天记录
禁止输出用户上传文件名
禁止输出音频文件名
禁止输出阶段说明
禁止输出项目符号
禁止输出 [字幕序号]
禁止输出 [开始时间]
禁止输出 [结束时间]
禁止输出 [单行字幕文本]
最终输出第一行必须是数字:
1
第一行之前不得出现任何文字、空格、空行或说明。
每条字幕之间必须有一个空行。
字幕序号必须从1开始,连续递增,不能跳号,不能重复。
最终输出必须严格类似下面这样:
1
00:00:00,500 --> 00:00:01,580
大家好 这里是极客智库
2
00:00:01,580 --> 00:00:03,880
如果现在还在用浏览器搜索
3
00:00:03,880 --> 00:00:05,480
那么确实有点落后了
请严格检查后再输出,确保每条字幕都符合标准 SRT 格式。

 

原创文章,作者:AI 智库,如若转载,请注明出处:https://www.leotalk.cn/396.html

上一篇 21小时前
下一篇 6天前

相关推荐