meiyouruguo 发表于 2025-12-12 16:05:48

GLM-ASR语音识别, 视频或者音频转文本整合包

GLM-ASR-Nano-2512(项目地址:https://github.com/zai-org/) 是一个稳健的开源语音识别模型,参数为 1.5B。设计对象 在实际复杂度上,它在多个基准测试中表现优于OpenAI Whisper V3,同时保持了紧凑的体积。
视频演示: https://www.bilibili.com/video/BV13XBWBUEuR/
https://www.bilibili.com/video/BV1FnmEBBEN9/

主要能力包括:
卓越的方言支持除了标准普通话和英语外,该模型还高度优化了粤语(粤语)及其他方言, 有效弥合了方言语音识别的空白。
低音量语音鲁棒性专门训练“低声说话”场景。它极其准确地捕捉和转录 传统型号常忽略的低音量音频。
SOTA性能在可比的开源模型中实现最低的平均错误率(4.10),展现出显著优势 在中国基准测试(Wenet Meeting、Aishell-1等)中。

个人测试结果: 速度很快
功能: 把视频或者音频 转成 文字


界面如图:


GLM-ASR 视频或者音频转文字解压即用整合包下载地址:
下载链接: https://pan.quark.cn/s/085c88002aae
解压密码: www.aibl.vip

GLM-ASR 视频或者音频转文字解压即用整合包下载地址 (支持长视频):
下载链接: https://pan.quark.cn/s/4c4778533ea3
解压密码: www.aibl.vip










wowkof 发表于 2025-12-20 11:09:31

这是个非常好的软件,楼主也是个非常合适来往的人
页: [1]
查看完整版本: GLM-ASR语音识别, 视频或者音频转文本整合包