GLM-ASR语音识别, 视频或者音频转文本整合包
GLM-ASR-Nano-2512(项目地址:https://github.com/zai-org/) 是一个稳健的开源语音识别模型,参数为 1.5B。设计对象 在实际复杂度上,它在多个基准测试中表现优于OpenAI Whisper V3,同时保持了紧凑的体积。主要能力包括:
卓越的方言支持除了标准普通话和英语外,该模型还高度优化了粤语(粤语)及其他方言, 有效弥合了方言语音识别的空白。
低音量语音鲁棒性专门训练“低声说话”场景。它极其准确地捕捉和转录 传统型号常忽略的低音量音频。
SOTA性能在可比的开源模型中实现最低的平均错误率(4.10),展现出显著优势 在中国基准测试(Wenet Meeting、Aishell-1等)中。
个人测试结果: 速度很快, 对于长视频效果比较差
功能: 把视频或者音频 转成 文字
界面如图:
GLM-ASR 视频或者音频转文字解压即用整合包下载地址:
下载链接: https://pan.quark.cn/s/085c88002aae
解压密码: www.aibl.vip
页:
[1]