GLM-ASR语音识别, 视频或者音频转文本整合包

meiyouruguo 发表于 2025-12-12 16:05:48

GLM-ASR-Nano-2512(项目地址:https://github.com/zai-org/) 是一个稳健的开源语音识别模型，参数为 1.5B。设计对象在实际复杂度上，它在多个基准测试中表现优于OpenAI Whisper V3，同时保持了紧凑的体积。
视频演示: https://www.bilibili.com/video/BV13XBWBUEuR/
https://www.bilibili.com/video/BV1FnmEBBEN9/

主要能力包括：
卓越的方言支持除了标准普通话和英语外，该模型还高度优化了粤语（粤语）及其他方言，有效弥合了方言语音识别的空白。
低音量语音鲁棒性专门训练“低声说话”场景。它极其准确地捕捉和转录传统型号常忽略的低音量音频。
SOTA性能在可比的开源模型中实现最低的平均错误率（4.10），展现出显著优势在中国基准测试（Wenet Meeting、Aishell-1等）中。

个人测试结果: 速度很快
功能: 把视频或者音频转成文字

界面如图:

GLM-ASR 视频或者音频转文字解压即用整合包下载地址:
下载链接: https://pan.quark.cn/s/085c88002aae
解压密码: www.aibl.vip

GLM-ASR 视频或者音频转文字解压即用整合包下载地址 (支持长视频):
下载链接: https://pan.quark.cn/s/4c4778533ea3
解压密码: www.aibl.vip

wowkof 发表于 2025-12-20 11:09:31

这是个非常好的软件，楼主也是个非常合适来往的人

iamim 发表于 2026-1-10 19:44:38

:)感谢分享

sonata1121 发表于 2026-3-30 17:48:54

GLM1.6B和FUNASR0.7B，相比较，哪个更好，识别率高，速度快？

sonata1121 发表于 2026-3-30 18:02:38

还有跟SenseVoice比较呢？哪个更好一些。我的场景是，客服语音转文字内容。

页: [1]

AIBL论坛's Archiver

GLM-ASR语音识别, 视频或者音频转文本整合包