查看: 187|回复: 0

本地语音转文字 STT Powered by Faster Whisper CPU可用

[复制链接]
灌水成绩
34
75
1208
主题
帖子
积分

等级头衔 ID : 11537
用户组 : 你真水!
等级 : Rank: 4

积分成就 威望 : 170
贡献 : 238
oe分 : 0
水份 : 521
在线时间 : 33 小时
注册时间 : 2024-8-1
最后登录 : 2024-11-7

勋章

最佳新人住在论坛LV1

发表于 2024-8-19 09:30:16 | 显示全部楼层 |阅读模式
v0.2更新
  • 应要求换掉了识别精度较差的base,增加了small和large两种模型;
  • 现在你可以在识别过程中终止操作了;
  • 保存结果可以选择位置了;
  • 更改模型默认保存位置为当前文件夹 model 目录下。
提醒:
根据用户反馈的问题,现更新回复如下
  • 兼容性:程序需要在win10 64bit以上系统版本使用,win7、xp等操作系统不支持;同时,部分奔腾、赛扬低端处理器因缺少所需指令集可能无法正常使用。
  • 选择模型问题:建议在使用large模型时,切换精度选择框为float32;其他两款模型建议使用int8即可。
  • 网络问题:模型体积较大,请确保网络环境稳定,若出现无法下载,连续失败等问题,建议删除同目录下的models文件夹重试。
    若以上回答没有解决问题,请回帖反馈,附上console(那个黑框框)里的输出内容,方便排查。
背景
最近接到一个需求,需要把录音转换为文字,一看网上几款常用的工具,想不到都是收费的;论坛里面找了找,发现基本上都需要云端api,仅有的几个本地的都需要使用GPU中的cuda计算。因此,开发了这么一款语言转文字的小工具,基于Faster Whisper模型,在cpu上也能达到不错的效果。
使用方式
双击文件打开,在左上角选择模型,左下角选择推理方式与精度(cpu推荐int8,速度更快)。
若没有支持cuda的GPU请不要选择GPU,否则会崩溃(原本想导入pytorch库判断cuda_is_available的,但是这样打出来的包会把一整个pytorch一起打包进去,太大了,后来就没这么处理)
首次使用需要下载模型,进度在console中可见,请耐心等待。
测试截图

下载地址 v0.1下载地址 v0.2技术栈
使用了PyQt5开发界面,使用Faster Whisper中的ctranslate2进行推理,使用opencc对提取出的繁体中文进行翻译。
End
希望大家多多测试长音频,看看会不会出bug(bushi

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部