开源组合llama+langchain助力开发者轻松使用whisper搭建本地环境,进行音视频的字幕生成和翻译,质量超级高,而且需求是转换为英语字幕,速度也是超级快的...【查看原文】
对于观看非母语小电影的人群,字幕能够帮助观众更好地理解对话和情节发展。电影字幕的生成电影字幕的生成,依赖语音转文本(Speech-to-Text,STT)的技术。随着语音技术和机器学习的发展,语音转文本技术也取得了长足的进步。而OpenAI的Whisper是目前识别率较高的模型。下面讲展示如何调用Whisper来得到电影的字幕.Whisper是一种自动语音识别(ASR)系统,它是基于680,000小时的多语言和多任务监督数据进行训练的,使用了大量的多样化音频数据进行训练,并且具有多任务的能力。Whispe
WhisperChatGPT机器学习OpenAI
浪客剑心客栈 2023-10-28
安装Whisper Whisper需要依赖:Nvidia CUDA(NVIDIA开发的并行计算平台和编程模型)Pytorch(开源深度学习框架)FFmpeg(开源的多媒体处理工具库和开发套件) 1. 确定CUDA版本并安装 CUDA的版本取决于两方面:Nvidia显卡驱动所选择的PyTorch版本 打开Nvidia控制面板(一般桌面右键菜单中即包含),查看驱动版本,或在控制台输入nvidia-smi.exe [图片] [图片] 获得版本后打开CUDA发行文档查看当前驱动版本所支持的CUDA版
OpenAIWhisper
巫不可 2024-10-21
前言 最近一直在炼丹(搞AIGC这块),突然发现业务代码都索然无味了… 上次发了篇AI画图的文章,ChatGPT虽然没法自己部署,但现在开源的LLM还是不少的,只要有一块差不多的显卡,要搞个LLM本地
AIGC编程ChatGPT
程序设计实验室 2023-05-20
[图片] 开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。 本期编辑:@SSN,@鲍勃 01 有话题的新闻 1、曝 OpenAI 高级推理 AI 产品「草莓」秋季推出 路透社曾爆料 OpenAI 正在
OpenAI
RTE开发者社区 2024-08-28
visual-chatgpt可以通过对话让AI对图片进行分析和处理,对图片进行解释、按文字生成或修改图片等操作。本质上其实是ControlNet+ChatGPT,并不是一个能够直接对图片进行处理的多模态语言模型,而是ChatGPT在现有的AI图片处理技术上的一个应用。 完整将模型全部加载要几十G的显存,但其实没有必要,每次只要加载需要用到的部分即可,通过修改代码可以在十几G的显存上运行。原理简介原理图参数介绍User Query,符号Qi,用户第i轮提问,可以是文字或者图片Ouput,符号Ai,模型第i轮
ChatGPT编程
璃花昼 2023-03-13
金融界2024年12月26日消息,国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“音频信号处理方法、装置及电子设备”的专利,公开号CN119181368A,申请日期为2023年6月。专利摘要显示,本申请提出一种音频信号处理方法、装置及电子设备,涉及音频处理技术领域。
金融界 2024-12-26
金融界2024年12月26日消息,国家知识产权局信息显示,上海任意门科技有限公司申请一项名为“一种语音合成方法、装置、电子设备及存储介质”的专利,公开号CN119181349A,申请日期为2024年11月。
金融界2024年12月26日消息,国家知识产权局信息显示,特斯拉(广州)科技有限公司取得一项名为“一种直流充电桩的降噪结构”的专利,授权公告号CN222202288U,申请日期为2024年5月。专利摘要显示,本实用新型公开了一种直流充电桩的降噪结构,本实用新型涉及直流充电桩技术领域。
金融界2024年12月26日消息,国家知识产权局信息显示,保时捷(上海)数字科技有限公司申请一项名为“用于语音可激活的设备的方法及相应的装置、设备和车辆”的专利,公开号CN119181354A,申请日期为2023年6月。专利摘要显示,本发明提供了用于语音可激活的设备的方法及相应的装置、设备和车辆。
金融界2024年12月26日消息,国家知识产权局信息显示,北京字跳网络技术有限公司申请一项名为“用于语音处理的方法、装置、设备、存储介质和产品”的专利,公开号CN119181362A,申请日期为2024年9月。专利摘要显示,根据本公开的实施例,提供了用于语音处理的方法、装置、设备、存储介质和产品。
金融界2024年12月26日消息,国家知识产权局信息显示,深圳市景雄科技有限公司申请一项名为“一种动态降噪与多语音增强的方法、系统、设备及介质”的专利,公开号CN119181371A,申请日期为2024年9月。
金融界2024年12月26日消息,国家知识产权局信息显示,西藏峦赛智慧物联工程有限公司取得一项名为“一种便于维护的新能源充电桩”的专利,授权公告号CN222202282U,申请日期为2024年4月。
金融界2024年12月26日消息,国家知识产权局信息显示,嘉善浩业电子科技有限公司取得一项名为“一种用于充电桩的多方位散热系统”的专利,授权公告号CN222202283U,申请日期为2024年4月。专利摘要显示,一种用于充电桩的多方位散热系统包括安装板,充电元器件,第一散热单元,以及第二散热单元。
金融界2024年12月26日消息,国家知识产权局信息显示,深圳市易思态科技有限公司申请一项名为“基于蓝牙传输的同声传译方法、装置、设备及介质”的专利,公开号CN119181365A,申请日期为2024年9月。
金融界2024年12月26日消息,国家知识产权局信息显示,上海极氪蓝色新能源技术有限公司申请一项名为“模型优化方法、装置、设备及存储介质”的专利,公开号CN119181366A,申请日期为2024年9月。
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1