Qwen3-ASR 是一个先进的自动语音识别模型,支持 52+ 种语言和方言,具有极高的准确率。 本演示展示了 1.7B 模型,该模型提供了卓越的多语言识别能力。
电脑显卡推荐: 英伟达独立显卡 12G
Qwen3-ASR家族包括Qwen3-ASR-1.7B和Qwen3-ASR-0.6B,支持52种语言和方言的语言识别和ASR。两者都利用大规模语音训练数据和其基础模型Qwen3-Omni的强大音频理解能力。实验显示,1.7B版本在开源ASR模型中达到了最先进的性能,并且能够与最强的专有商业API竞争。以下是主要功能: 一体化:Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持30种语言和22种中文方言的语言识别和语音识别,能够识别来自多个国家和地区的英语口音。 优秀且快速:Qwen3-ASR家族ASR模型在复杂的声学环境和复杂文本模式下保持高质量且稳健的识别能力。Qwen3-ASR-1.7B 在开源和内部基准测试中均表现出色。虽然0.6B版本实现了准确率高效的权衡,但在128并发时吞吐量达到2000倍。它们都实现了单一模型的流式/离线统一推理,并且支持转录长音频。 新颖且强的强制对齐解决方案:我们推出了Qwen3-ForcedAligner-0.6B,支持在11种语言中对任意单位在最多5分钟的语音时间戳预测。评估显示其时间戳准确性优于基于端对外的强制对齐模型。 全面的推理工具包:除了开源Qwen3-ASR系列的架构和权重外,我们还发布了一个强大且功能齐全的推理框架,支持基于vLLM的批处理推理、异步服务、流式推理、时间戳预测等功能。
Qwen3-ASR-main/
├── models/
│ ├── Qwen3-ASR-1.7B/ # ASR 主模型 (必需)
│ ├── Qwen3-ASR-0.6B/ # ASR 主模型 (可选)
│ └── Qwen3-ForcedAligner-0.6B/ # 时间戳对齐器 (生成字幕必需)
└── output/
### 3️⃣ 语种选择
| 选项 | 说明 | 准确度 | 速度 |
|------|------|--------|------|
| **Auto** | 自动识别语言 | ⭐⭐⭐⭐ | 正常 |
| **Chinese** | 强制识别为中文 | ⭐⭐⭐⭐⭐ | 稍快 |
| **English** | 强制识别为英文 | ⭐⭐⭐⭐⭐ | 稍快 |
| **其他** | 52+ 种语言 | ⭐⭐⭐⭐ | 正常 |
**使用建议**:
- 🌍 **不确定语言** → 选择 `Auto`
- 🇨🇳 **纯中文音频** → 选择 `Chinese` (精度更高)
- 🇺🇸 **纯英文音频** → 选择 `English` (精度更高)
- 🌏 **多语言混合** → 选择 `Auto`
## SRT 字幕设置详解
### 📌 分段模式
控制字幕在哪些标点符号处换行,影响字幕的长度和可读性。
#### 🔹 严格分段
**换行标点**: 句号(。.)、问号(??)、感叹号(!!)
**特点**:
- ✅ 字幕最长,每条包含完整句子
- ✅ 减少换行次数,画面更简洁
- ❌ 单条字幕可能过长,不易阅读
**示例**:
```srt
1
00:00:00,000 --> 00:00:05,000
你好,欢迎使用Qwen3-ASR,这是一个强大的语音识别工具。
2
00:00:05,000 --> 00:00:08,000
它支持52种以上的语言!
```
**适用场景**:
- 🎬 电影/电视剧 (专业字幕)
- 🎤 演讲/讲座 (长句子)
- 🎵 歌词字幕
- ⚡ 快节奏视频 (减少字幕跳动)
---
#### 🔹 标准分段 (推荐)
**换行标点**: 句号(。.)、问号(??)、感叹号(!!)、逗号(,,)
**特点**:
- ✅ 平衡长度和可读性
- ✅ 符合大多数观看习惯
- ✅ 逗号处也会换行,避免句子过长
**示例**:
```srt
1
00:00:00,000 --> 00:00:02,000
你好,
2
00:00:02,000 --> 00:00:04,000
欢迎使用Qwen3-ASR,
3
00:00:04,000 --> 00:00:06,000
这是一个强大的语音识别工具。
```
**适用场景**:
- 📺 新闻/访谈节目 (推荐)
- 🎓 在线教育/课程
- 📹 Vlog/生活记录
- 💼 企业培训视频
- **大多数常规视频** ⭐
---
#### 🔹 详细分段
**换行标点**: 所有标点 (包括分号;;、冒号::、顿号、等)
**特点**:
- ✅ 字幕最短,最易阅读
- ✅ 适合逐句精读
- ❌ 换行频繁,可能显得碎片化
**示例**:
```srt
1
00:00:00,000 --> 00:00:01,000
你好,
2
00:00:01,000 --> 00:00:02,500
欢迎使用Qwen3-ASR,
3
00:00:02,500 --> 00:00:03,500
这是一个强大的语音识别工具;
4
00:00:03,500 --> 00:00:04,500
它支持多种语言:
5
00:00:04,500 --> 00:00:05,500
中文、英文、日文等。
```
**适用场景**:
- 📚 教学视频 (方便暂停学习)
- 🔬 技术讲解/教程
- 👶 儿童教育内容
- 🌍 外语学习材料
- 🐌 慢节奏讲解视频
---
### 📏 每行字数
控制每条字幕的最大字符数 (包括中英文、标点)。
**数值范围**: 20 - 100
**默认值**: 42
已发布型号描述与下载
以下是Qwen3-ASR模型的介绍和下载信息。请选择并下载符合您需求的型号。 [td]| 模型 | 支持的语言 | 支持的方言 | 推理模式 | 音频类型 | | Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B | 中文(zh)、英语(en)、粤语(yue)、阿拉伯语(ar)、德语(de)、法语(fr)、西班牙语(es)、葡萄牙语(pt)、印尼语(id)、意大利语(it)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、日语(ja)、土耳其语(tr)、印地语(hi)、马来语(ms)、荷兰语(nl)、瑞典语(sv)、丹麦语(da)、芬兰语(fi)、波兰语(pl)、捷克语(cs)、菲律宾语(fil)、波斯语(fa)、希腊语(el)、匈牙利语(胡) 马其顿(mk)、罗马尼亚(ro) | 安徽、东北、福建、甘肃、贵州、河北、河北、湖南、江西、宁夏、山东、陕西、山西、四川、天津、云南、浙江、粤语(香港口音)、粤语(粤语、粤语、吴语、闽南语)。 | 离线 / 流媒体 | 语音、歌唱、配音乐歌曲 | | Qwen3-强制校正器-0.6B | 中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语 | -- | NAR | 演讲 |
Qwen3-ASR音频识别转文本工具解压即用整合包下载地址(支持导出srt字幕):
链接:https://pan.quark.cn/s/5c099de36082
解压密码 www.aibl.vip
|