AIBL论坛

 找回密码
 立即注册
本论坛所有软件旨在帮助用户创建逼真且有趣的内容,帮助做自媒体的人制作原创有趣的视频或广告,如果使用别人的肖像,使用之前需获得同意和许可(建议使用AI生成的人脸),严禁使用本论坛发布的资源用于不符合当地法律法规的事情
查看: 148|回复: 0

GLM-ASR语音识别, 视频或者音频转文本整合包

[复制链接]
发表于 前天 16:05 | 显示全部楼层 |阅读模式
GLM-ASR-Nano-2512  (项目地址:https://github.com/zai-org/) 是一个稳健的开源语音识别模型,参数为 1.5B。设计对象 在实际复杂度上,它在多个基准测试中表现优于OpenAI Whisper V3,同时保持了紧凑的体积。
主要能力包括:
卓越的方言支持除了标准普通话和英语外,该模型还高度优化了粤语(粤语)及其他方言, 有效弥合了方言语音识别的空白。
低音量语音鲁棒性专门训练“低声说话”场景。它极其准确地捕捉和转录 传统型号常忽略的低音量音频。
SOTA性能在可比的开源模型中实现最低的平均错误率(4.10),展现出显著优势 在中国基准测试(Wenet Meeting、Aishell-1等)中。


个人测试结果: 速度很快, 对于长视频效果比较差
功能: 把视频或者音频 转成 文字



界面如图:
QQ20251212-154456.jpg

GLM-ASR 视频或者音频转文字解压即用整合包下载地址:
下载链接: https://pan.quark.cn/s/085c88002aae
解压密码: www.aibl.vip






AIBL论坛免责申明
本论坛刊载的所有内容,包括图片、软件、模型等均在网上搜集。
论坛提供的内容仅用于个人学习、研究或欣赏。我们不保证内容的正确性。通过使用本站内容随之而来的风险与本站无关
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|AIBL论坛

GMT+8, 2025-12-14 17:47 , Processed in 0.041635 second(s), 25 queries , Gzip On.

Powered by AI技术论坛 X3.5

© 2001-2026 dfl论坛

快速回复 返回顶部 返回列表