文章列表-AI魔法学院

文章列表

Fastwhisper + Pyannote 实现 ASR + 说话者识别

前言最近在研究ASR相关的业务，也是调研了不少模型，踩了不少坑，ASR这块，目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了，英文的话，还是非whisper莫属了，而且

faster-whisper 语者识别 ASR

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

语音和音频处理领域正在经历一场重大变革，从专门的自动语音识别（ASR）系统，转向集成的、多模态的音频大语言模型（Audio LLM）。

音频对比

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟 ASR(目前已开源)，SenseVoice-Large 支持超过 50 种语言的高精度 ASR。

asr tts 声音

【语音识别】OpenAI语音力作Whisper

一、介绍 Whisper 是一系列用于自动语音识别 (automatic speech recognition，ASR) 的预训练模型，它由来自于 OpenAI 的 Alec Radford

语音转文字 whisper

MCI-GRU：在真实金融交易中验证有效的股票价格预测模型

评价指标涵盖年化收益率（ARR）、年化波动率（AVol）、最大回撤（MDD）、年化夏普比率（ASR）、卡玛比率（CR）和信息比率（IR）。

MCI-GRU 股票大模型

十大开源语音识别项目

Automatic Speech Recognition（ASR）是一项自动语音识别技术，其目标是通过计算机自动将人类口头语音转录为文本。

语音识别开源项目

语音识别的新拐点：OLMoASR 带来的机会

而支撑这一切的，就是 ASR（自动语音识别）技术 01 什么是 ASR？

OLMoASR 语音识别

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

对于音频对齐，作者收集了开源和内部的数据集，用于自动语音识别（ASR）和音频问答（AQA）。

Baichuan-Omni 多模态大模型

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和

数字人声音克隆 GPT-SoVITS

国内厂商语音识别与Whisper评测：现状与概况对比

二、评测意义与预期成果语音识别（speech recognition）技术，也被称为自动语音识别（Automatic Speech Recognition, ASR）、电脑语音识别（Computer

语音识别 Faster-Whisper

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

· 支持多个 ASR (自动演讲识别) 配方 · 支持类似于 ASR 配方一样的 TTS (文本转声) · 支持 ST (Speech Translation

AudioCraft 音频

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

我们发现这个任务不仅在超越语音信号的基于语音的问题回答任务（如声音和音乐）方面改进了接地任务，还改善了ASR的性能。

大模型语音

开源免费离线语音识别神器whisper如何安装

Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文

wisper 翻译免费

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

相较以往的传统方案，LLaSM 能够通过便捷的语音输入的交互方式，大幅改善过往以文本为输入的大模型的使用体验，同时有效避免基于 ASR 解决方案的繁琐流程以及可能引入的错误。

开源模型

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

SeamlessStreaming是一个基于深度学习的模型，它可以完成以下几种任务：语音到语音翻译（S2ST）、语音到文字翻译（S2TT）、文字到语音翻译（T2ST）、文字到文字翻译（T2TT）、自动语音识别（ASR

大模型开源模型语音

<12 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1