AIBL论坛

 找回密码
 立即注册
本论坛所有软件旨在帮助用户创建逼真且有趣的内容,帮助做自媒体的人制作原创有趣的视频或广告,如果使用别人的肖像,使用之前需获得同意和许可(建议使用AI生成的人脸),严禁使用本论坛发布的资源用于不符合当地法律法规的事情
查看: 204|回复: 0

openai-whisper视频音频转文本字幕整合包,支持50系列显卡

[复制链接]
发表于 4 天前 | 显示全部楼层 |阅读模式
openai-whisper视频音频转文本字幕整合包,支持50系列显卡,支持批量转换
whisper是OpenAI公司出品的AI字幕神器,是目前最好的语音生成字幕工具之一,开源且支持本地部署,支持多种语言识别(英语识别准确率非常惊艳)。

1.jpg

Whisper模型的主要区别:

  模型大小和性能对比

  | 模型     | 参数量   | 相对速度 | VRAM需求 | 转录质量 | 适用场景      |
  |--------|-------|------|--------|------|-----------|
  | tiny   | 39M   | 最快   | ~1GB   | 较低   | 快速预览、实时转录 |
  | base   | 74M   | 很快   | ~1GB   | 中等   | 日常使用平衡点   |
  | small  | 244M  | 快    | ~2GB   | 良好   | 大多数应用推荐   |
  | medium | 769M  | 中等   | ~5GB   | 很好   | 高质量需求     |
  | large  | 1550M | 慢    | ~10GB  | 最好   | 最高质量要求    |     翻译到英文选择此模型
  | turbo  | -     | 很快   | ~6GB   | 很好   | 速度与质量平衡   |  不支持翻译到英文

  详细说明

  tiny

  - 最快速度,几乎实时处理
  - 质量较低,可能有较多错误
  - 适合快速预览或对准确性要求不高的场景

  base

  - 速度与质量的入门平衡
  - 比tiny质量好,但仍可能有明显错误
  - 适合快速处理大量音频文件

  small

  - 推荐的日常使用模型
  - 质量显著提升,速度仍然可接受
  - 大部分场景下的最佳选择

  medium

  - 高质量转录
  - 处理速度明显变慢
  - 适合对准确性要求较高的场景

  large

  - 最高质量,接近人工转录水平
  - 速度最慢,资源消耗最大
  - 适合专业转录、字幕制作等

  turbo (新版本)

  - 优化版large模型
  - 在保持high质量的同时大幅提升速度
  - 是large的更快替代品

  选择建议

  - 日常使用: small或turbo
  - 快速预览: tiny或base
  - 专业工作: medium或large
  - 硬件限制: tiny或base
_________________________________________________________________________
Whisper中高级选项的四个功能:

  1. 温度 (Temperature)

  作用: 控制输出的随机性和创造性
  - 范围: 0.0 - 1.0
  - 默认值: 0.0
  - 0.0: 完全确定性输出,每次结果相同
  - >0.0: 增加随机性,可能产生不同的转录结果
  - 使用建议: 大多数情况下保持0.0,除非需要多样性输出

  # 温度=0.0: "今天天气很好"
  # 温度=0.5: 可能输出 "今天天气不错" 或其他相近表达

  2. Beam大小 (Beam Size)

  作用: 控制搜索算法的宽度,影响质量和速度
  - 范围: 1-10
  - 默认值: 5
  - 数值越大: 质量更好,但速度更慢
  - 数值越小: 速度更快,但可能质量下降
  - 使用建议: 追求质量用8-10,追求速度用1-3

  # beam_size=1: 贪婪搜索,最快但质量一般
  # beam_size=5: 平衡点
  # beam_size=10: 最佳质量,但最慢

  3. 词级时间戳 (Word Timestamps)

  作用: 为每个单词提供精确的开始和结束时间
  - 默认: 关闭(只有句子级时间戳)
  - 开启后: 每个词都有独立的时间标记
  - 用途:
    - 制作更精确的字幕
    - 语音分析
    - 同步显示文字

  // 关闭词级时间戳
  {"start": 0.0, "end": 3.5, "text": "今天天气很好"}

  // 开启词级时间戳
  {"words": [
    {"word": "今天", "start": 0.0, "end": 0.8},
    {"word": "天气", "start": 0.9, "end": 1.5},
    {"word": "很好", "start": 1.6, "end": 2.2}
  ]}

  4. 初始提示 (Initial Prompt)

  作用: 提供上下文信息,引导转录方向
  - 用途:
    - 指定专业术语
    - 提供背景信息
    - 改善特定领域的转录准确性
  - 示例:
  "这是一段关于人工智能的技术讲座"
  "演讲者在讨论机器学习算法"
  "医学会议上的病例讨论"

  使用场景建议

  普通用户

  - 温度: 0.0
  - Beam: 5
  - 词级时间戳: 关闭
  - 初始提示: 空

  制作字幕

  - 温度: 0.0
  - Beam: 8-10
  - 词级时间戳: 开启
  - 初始提示: 描述内容类型

  专业转录

  - 温度: 0.0
  - Beam: 10
  - 词级时间戳: 开启
  - 初始提示: 填写专业背景

  快速处理

  - 温度: 0.0
  - Beam: 1-3
  - 词级时间戳: 关闭
  - 初始提示: 空

  这些选项让你能根据具体需求调整Whisper的行为,在速度、质量和功能之间找到最佳平衡点。

请更新你的电脑显卡驱动到最新版本,确保显卡驱动的cuda 版本大于12.9 才能用

openai-whisper视频音频转文本字幕整合包下载地址:

链接:https://pan.quark.cn/s/484a2824c491

解压密码: www.aibl.vip




AIBL论坛免责申明
本论坛刊载的所有内容,包括图片、软件、模型等均在网上搜集。
论坛提供的内容仅用于个人学习、研究或欣赏。我们不保证内容的正确性。通过使用本站内容随之而来的风险与本站无关
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|AIBL论坛

GMT+8, 2025-9-9 00:09 , Processed in 0.113124 second(s), 26 queries , Gzip On.

Powered by AI技术论坛 X3.5

© 2001-2026 dfl论坛

快速回复 返回顶部 返回列表