小电影字幕的生成(Whisper)和翻译(ChatGPT)

作者：浪客剑心客栈发布时间：2023-10-28

对于观看非母语小电影的人群，字幕能够帮助观众更好地理解对话和情节发展。

电影字幕的生成

电影字幕的生成，依赖语音转文本（Speech-to-Text，STT）的技术。

随着语音技术和机器学习的发展，语音转文本技术也取得了长足的进步。

而OpenAI的Whisper是目前识别率较高的模型。下面讲展示如何调用Whisper来得到电影的字幕.

Whisper是一种自动语音识别（ASR）系统，它是基于680,000小时的多语言和多任务监督数据进行训练的，使用了大量的多样化音频数据进行训练，并且具有多任务的能力。
Whisper可以识别的语言包括但不限于中文、英语、日语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、俄语和韩语等。

1. 生成电影的字幕文件

Whisper文件上传目前限制为25 MB，支持以下输入文件类型：mp3、mp4、mpeg、mpga、m4a、wav和webm。为了减少上传文件的体积，可以先提取电影的声音到mp3文件。

FFmpeg是一个开源的跨平台音视频处理工具集，它提供了丰富的功能和命令行工具，用于处理、转码、编辑和流媒体处理等任务

1.1 使用FFmpeg把视频转换成音频:

ffmpeg -i input.mp4 -vn -acodec libmp3lame -q:a 6 output.mp3

这将从 input.mp4 的文件中提取音频，并将其保存为output.mp3文件。

在这个命令中，使用了libmp3lame编解码器来编码音频为MP3格式，并且通过-q:a参数指定了音频质量，值越小质量越低，一般取值范围为0-9，其中0为最高质量。

1.2 调用Whisper生成字幕文件

curl https://api.openai.com/v1/audio/transcriptions \
-H "Authorization: Bearer {替换成你的OpenAI API KEY}" \
-H "Content-Type: multipart/form-data" \
-F file="@output.mp3" \
-F model="whisper-1" \
-F response_format="srt" > output.srt

output.mp3 是上一步生成的音频文件，output.srt 是语音识别出来的字幕文件.

如果在内网连不上OpenAI，可以通过添加 -x proxyHost:proxyProxy 参数来处理.

另外还可以通过指定语音的语言和使用ChatGPT修正字幕的错别字和标点符号.

2. 使用ChatGPT翻译电影字幕

ChatGPT不支持直接翻译文件，可以考虑通过第三方工具来翻译. 例如:

如何使用ChatGPT翻译文档(PDF/EPUB/DOCX/PPTX/XLSX/SRT)?

CahtGPT翻译的优势主要在于关联上下文，就是可以根据字幕文本相邻句子来优化翻译的效果, 比起机器翻译要更精确和流程一些.

相关资讯

使用OpenAI - Whisper生成字幕

安装Whisper Whisper需要依赖：Nvidia CUDA（NVIDIA开发的并行计算平台和编程模型）Pytorch（开源深度学习框架）FFmpeg（开源的多媒体处理工具库和开发套件） 1. 确定CUDA版本并安装 CUDA的版本取决于两方面：Nvidia显卡驱动所选择的PyTorch版本打开Nvidia控制面板（一般桌面右键菜单中即包含），查看驱动版本，或在控制台输入nvidia-smi.exe [图片] [图片] 获得版本后打开CUDA发行文档查看当前驱动版本所支持的CUDA版

OpenAI Whisper

巫不可 2024-10-21

【教程】利用whisper模型自动生成英文粗字幕

引言最近正在进行一项大工程：给Kimberly Akimbo这部音乐剧做全场字幕。由于精力有限，故研究了一下利用AI工具减少工作量的方法。于是找到了OpenAI（开发ChatGPT的那家公司）开源的语音识别模型whisper。该模型可以直接由音频文件识别生成包括srt字幕格式在内的多种文字稿。本教程主要提供基于官方的命令行工具的操作方法，如果嫌麻烦也可以用一些打包好的图形界面软件（B站有人投稿过相关的教程）。下面是配置要求及步骤（项目仓库链接见文末）: 运行环境硬件 NVIDIA GeForce 3

Whisper ChatGPT OpenAI

T_MA 2024-01-10

基于openai-Whisper，我做了一个视频自动添加字幕(翻译)的小程序

看美剧想翻译字幕，就想起了这个Whisper模型。详细描述了实现过程：获取字幕、翻译字幕、合成为视频！

OpenAI Whisper

彭喜迎MAX 2024-03-18

stream-translator-gpt: 基于Whisper和ChatGPT的直播实时翻译

stream-translator-gpt是什么？stream-translator-gpt是本人基于stream-translator进行改进的一个项目，对直播流使用Whisper进行语音转文字，再使用ChatGPT进行翻译，达到实时机翻的效果。演示视频：Github地址：https://github.com/ionic-bond/stream-translator-gpt关于原项目stream-translator的介绍，可以看站内另一篇专栏：关于stream-translator原有的功能，本文将不

ChatGPT Whisper GitHub

ionic_bond 2023-04-06

ChatGPT翻译外语字幕代码

视频中涉及的代码：translate.pyimport timefrom pprint import pprintimport openaiimport tqdmfrom config import api_key, proxyopenai.api_key = api_keyopenai.proxy = proxydef load_srt(fp): with open(fp, "r", encoding="utf-8") as f: content = f.read() result = [] for l

ChatGPT 编程

齐欠大圣 2023-11-21

近期资讯

「追光科技」获近亿元A轮融资，新产能投产在即 | 36氪首发

加快推进有机光伏商业化。

张卓倩 2024-12-30

今年16省份上调最低工资标准，谁的涨幅最大？

明年还有9地或将迎来调整。

时代周报 2024-12-30

别让伪“俄罗斯商品馆”跑了

俄罗斯商品馆假货问题需加强监管。

每日资本论 2024-12-30

元动力 —— AI大模型带来的芯片投资机会

服务器由传统服务器向AI服务器的转变过程中，最主要的变化是AI芯片的价值占比大幅提升。

元禾汇 2024-12-30

提供第三代电解水制氢技术装备，「稳石氢能」今年实现2亿营收 | 早期项目

AEM电解槽领导者。

张卓倩 2024-12-30

瑞士医疗科技公司ENANTIOS研发基于拉曼旋光的分子结构分析测量技术，加快药物发现速度 | 瑞士创新100强

可广泛应用于手性分子及生物制剂领域。

以明科技 2024-12-30

2亿新就业浮世绘：跑单养家，转型创业，投身公益

新就业发展大潮中，被改变的普通人。

Tech星球 2024-12-30

融资2000万美元，CareAcademy 如何实现在线「护理员培训」？

护理员入职速度提升60%，人员流动率降低74%，完课率提高4倍。

艾年 2024-12-30

5万人丢掉饭碗，巨头接连裁员，欧洲汽车工业迈入凛冬

降本，降本，还是降本

智能车参考 2024-12-30

理想和问界今年都卖爆，但明年就没这么好搞了

明年谁躺枪，敬请期待。

差评 2024-12-30

小电影字幕的生成(Whisper)和翻译(ChatGPT)

电影字幕的生成

1. 生成电影的字幕文件

2. 使用ChatGPT翻译电影字幕

推荐体验

相关资讯

使用OpenAI - Whisper生成字幕

【教程】利用whisper模型自动生成英文粗字幕

基于openai-Whisper，我做了一个视频自动添加字幕(翻译)的小程序

stream-translator-gpt: 基于Whisper和ChatGPT的直播实时翻译

ChatGPT翻译外语字幕代码

近期资讯

「追光科技」获近亿元A轮融资，新产能投产在即 | 36氪首发

今年16省份上调最低工资标准，谁的涨幅最大？

别让伪“俄罗斯商品馆”跑了

元动力 —— AI大模型带来的芯片投资机会

提供第三代电解水制氢技术装备，「稳石氢能」今年实现2亿营收 | 早期项目

瑞士医疗科技公司ENANTIOS研发基于拉曼旋光的分子结构分析测量技术，加快药物发现速度 | 瑞士创新100强

2亿新就业浮世绘：跑单养家，转型创业，投身公益

融资2000万美元，CareAcademy 如何实现在线「护理员培训」？

5万人丢掉饭碗，巨头接连裁员，欧洲汽车工业迈入凛冬

理想和问界今年都卖爆，但明年就没这么好搞了

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响