真快！几分钟就把视频语音识别为文本了，不到10行代码

大家好，我是风筝

将音视频文件中的音频转为文字内容，这个需求放到两年前还不大好实现，但是放到今天，几分钟就解决了。

听说有的公司为了抓取训练数据，已经把抖音、快手这些短视频平台上的视频扒了个遍，然后将其中的音频提取成文本，用作大数据模型的训练语料。

如果你有将视频或音频文件转文字的需要，不妨试一试今天提供的这个开源方案。比如搜索影视台词出现的时间点。

话不多说，进入正题。

Whisper

这个方案就是 OpenAI 开源的 Whisper，当然是用 Python 写的了，只需要简单安装几个包，然后几行代码一写，稍等片刻（根据你的机器性能和音视频长度不一），最终的文本内容就出来了，就是这么简单。

虽然已经很简单了，但是对于程序员来说还是不够简洁，毕竟程序员都很“懒”，Whisper 虽说安装和调用已经很简单了，但还是需要独立安装 PyTorch 、ffmpeg 甚至 Rust。

于是，就有了更快、更简洁的 Fast-Whisper。Fast-Whisper 并不是简单封装了一下 Whisper，而是是使用 CTranslate2 重新实现 OpenAI 的 Whisper 模型，CTranslate2 是 Transformer 模型的快速推理引擎。

总结一下，也就是比 Whisper 更快，官方的说法是比 Whisper 快了 4-8 倍。不仅能支持 GPU ，还能支持 CPU，连我这台破 Mac 也能用。

使用起来就两步。

pip install faster-whisper

分享说明：转发分享请注明出处。