Wisper语音识别

By admin, 30 三月, 2023

(以下内容摘自香港失明人协进会的无障碍数码科技通讯 第一百八十八期》)

语音转译文字程式 WhisperTranscribe

以下所介绍之产品并非由香港失明人协进会开发,文稿亦是原作者所提供,如果在安装以及使用上有任何疑问,请发送电邮到 cyeric20@yahoo.com.hk 与原作者联络。

 

近来很多人谈论由 OpenAI 公司所开发的 ChatGPT 人工智能聊天机械人,因为它的思考方式比较接近人类,开始能够回答一些较为复杂的问题。其实,这间 OpenAI 公司也开发了其他程式,其中一个开放源代码的程式就称为 Whisper,

https://github.com/openai/whisper

作用就是将语音转译成文字。它的转译速度相当不错,其转译结果的准确度大概也有80 至90 或以上巴仙,当中也包含了人工智能的技术。不过它需要在 Python 环境下执行,并且用者需要输入比较复杂的命令行,加上系统需求比较高,需要电脑具备 NVIDIA 的显示卡,显示卡需要有 CUDA 的技术来协助转译,转译速度才能大大加快。于是有其他人将这个 Whisper 改写成对系统需求没那么高、也是开放源代码的 whisper.cpp,

https://github.com/ggerganov/whisper.cpp

它无须运用显示卡的运算协助转译工作,也无须在 Python 的环境中执行,不过电脑 CPU 的运算速度快些和记忆体充足一些会比较好,而且转译速度似乎也没那么快。由于用者仍要输入复杂的命令行,所以本人就用 whisper.cpp 做为转译引擎,编写了视窗界面,并且命名为 WhisperTranscribe,也就是说 WhisperTranscribe 本质上采用了 OpenAI 的语音转译文字技术。

 

WhisperTranscribe 的主要功能,就是将有说话语音的影音档案,转译成文字档或字幕档,也就是说可以为影音档案生成字幕,当然用者也要编辑一下字幕档,修正一些错误之处,字幕才显得更为准确,它的特色如下:

* 转译的准确率大概有80 至90 或以上巴仙,纵使影音档案在播出时,有一些背景音也不会妨碍转译结果,又或影音档案的主要说话语言是钟旻,当中夹杂一些英文程式也能应付,当然说话的语音需要清晰可听。

* 能够转译绝大部分类型的影音档案,包括并不限于 .mp3、.aac、.opus、.flac、.wma、.wav 等声音档,以及 .avi、.mp4、.wmv、.webm 等影片档。

* 用者可以为影音档选择合适的说话语言,有多个语言可选,并且设有自动侦测语言的选项可选。

* 对于需要使用读屏软件的朋友来说,程式同样易于使用,读屏都能够读出主要的讯息,而且一些功能都设有键盘快速键。

* 可携版程式,无须安装,下载解压缩后即可使用。

 

纵使程式具有上述特色,可是它也有不少不足之处,包括:

* 程式最好在 CPU 运算速度较快和记忆体较充裕的电脑执行,相信近几年出品的电脑,假如具备 Intel Core i5 或运算速度更高的 CPU,具备8 GB 或以上的记忆体,这样的电脑都可应付,如果在较为低阶的电脑执行,转译速度会更慢。

* 由于程式占用电脑 CPU 的资源比较多,会导至电脑产生不少沸热,所以需要一个良好的散热环境,而电脑散热风扇的运转速度也可能比较高,导致有可能产生教大的噪音。

* 转译的速度不够快,纵使在运算速度较快和记忆体较充裕的电脑进行转译,若要有较准确的转译结果,一般需要档案播放时间长度的一倍或以上的时间才转译完成,如果在运算速度不够快和记忆体不够多的电脑进行转译,转译速度肯定更慢。

* 由于需要包含不同语音模型的关系,程式比较大,大概需要占用9 GB 的储存空间,所以占用储存空间比较多,下载程式时花的时间也比较长。

* 程式没有华丽的视窗界面。

* 在现阶段来说,转译出来的内容,都不会自动加上标点符号。

 

若要试用这个程式,可利用网页浏览器造访

https://drive.google.com/drive/folders/1o1eBtjNbyH9MT9WtdUa6NsGcnGRHMrpi?usp=share_link

将 WhisperTranscribe.zip 下载到电脑,然后将档案解压缩。会得出一个名为「WhisperTranscribe」的资料夹,里面就有执行档「WhisperTranscribe.exe」,以及其他东东。现在简述一下使用方法:

 

1. 准备一个没有档案的资料夹,将需要转译的影音档案复制进去。

 

2. 先开启「WhisperTranscribe」资料夹内的「WhisperTranscribe.exe」执行档,代一会后一个主视窗便会出现。

 

3. 在程式主视窗内按 Tab 键到「浏览」按钮,然后按空格键,这里可让你选择需要转译档案的资料夹。

 

4. 选好资料夹后可按 Tab 键到选择语音模型的下拉方块,再选一个合适的语音模型,建议选「中型」,转译准确率大概有80 至90 或以上巴仙,在运算速度较快的电脑来说,转译档案所花的时间,大概是档案播放时间长度的一倍或以上,例如档案播放时间长度为10 分钟,转译所花的时间可能需要11 分钟才完成,如果选「大型」的话,转译结果可能会更准确一些,但转译档案所花的时间可能是档案播放时间长度的三倍或以上。

 

5. 还有其他选项,可以继续按 Tab 键,可选择语音语言,还有输出档案类型等选项,输出档案类型建议选取 .txt 文字档、.vtt 字幕档和 .srt 字幕档。

 

6. 一切准备就绪后,用者可按「开始」,程式便会开始执行转译工作,将资料夹内所有的影音档案全部转译为文字或字幕档案,转译期间会跳出进度视窗,显示工作进度,使用读屏的朋友届时可在进度视窗的唯读编辑方块,利用方向键读出不时更新进度的讯息。

 

7. 程式会记住用者所有已选出的选项,下次执行程式后,如果放置影音档案的资料夹、说话语言、使用模型和输出档案类型等选项没有改变的话,可以直接按「开始」进行转译工作。

 

8. 程式会利用档案名称建立同名资料夹,并将同名影音档案和输出档案都放到资料夹里面。

 

9. 在所有转译工作都完成后,程式会开启资料夹并且退出。

 

10. 如果你的电脑安装了 PotPlayer 播放器,可以修改 PotPlayer 的一些设定,在 PotPlayer 每次播放有这种字幕的影音档案的时候,读屏软件 NVDA 能读出字幕。以下 PotPlayer 的设定只需做一次即可,以后无须再造:

10.1. 打开 PotPlayer,在 PotPlayer 视窗按 F5 打开偏好设定。

10.2. 按向下键多次到「协助工具 (TTS/UIA)」。

10.3. 案 Tab 键多次,直到「使用者介面自动化 (UIA)」,「用于「字幕」输出时」的核取方块,然后按空格键将它勾选。

10.4. 按 Tab 键多次到「确定」按钮,再按 Enter 键即可。

 

11. 假如已经启动 NVDA 的话,你可以试一下利用 PotPlayer 播放资料夹内的影音档,看看 NVDA 能否自动读出生成的字幕。

 

以下列出 WhisperTranscribe 主视窗的几个功能快速键:

* Alt+b--按下「浏览」按钮,也就是选择放有影音档案的资料夹。

* Alt+o--按下「开启资料夹」按钮,也就是开启资料夹检视档案。

* Enter--按下「开始」按钮,也就是开始进行转译工作。

* Escape--按下取消按钮,也就是取消转译并结束程式。

 

以下列出 WhisperTranscribe 进度视窗的几个功能快速键:

* Alt+h--按下隐藏此视窗」按钮,也就是隐藏进度视窗,在这个视窗出现时,也可随时按 Win+Ctrl+h 显示或隐藏视窗。

* Alt+o--按下「开启资料夹」按钮,以检视资料夹里面的内容。

* Alt+x--按下「停止并结束」按钮,也就是停止转译工作并且结束程式。

 

最后需要一提,如果影音档案的说话语言是广东话,建议在「语音语言」的下拉方块选「中文」,程式有可能将语音内容翻译成书面语。

 

*************************************************************************

标签

评论

Restricted HTML

  • 允许的HTML标签:<a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id> <img src>
  • 自动断行和分段。
  • 网页和电子邮件地址自动转换为链接。
验证码
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
请输入"Drupal10"