首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南
· 制作可爱的表情包
· AI声音克隆 | 最全最简教程(权威版)
· 盘点字节跳动最新的AI应用
· 胎教级SO-VITS-SVC使用教程:人工智能生成歌曲
· 智源:70万预算,从头开发千亿参数大模型,挑战成功!
· 【SD魔法手册】之25个常用服饰类咒语(Prompt)
· 超详细的 Stable Diffusion ComfyUI 基础教程(一):安装与常用插件
· ChatGLM智谱清言
· 强大高效的微信爬虫Wechat_Articles_Spider:快速获取公众号文章的利器
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Fastwhisper + Pyannote 实现
ASR
+ 说话者识别
前言 最近在研究
ASR
相关的业务,也是调研了不少模型,踩了不少坑,
ASR
这块,目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了,英文的话,还是非whisper莫属了,而且
faster-whisper
语者识别
ASR
LLM
从专业
ASR
到统一音频LLM:七大顶尖模型的深度对比分析
语音和音频处理领域正在经历一场重大变革,从专门的自动语音识别(
ASR
)系统,转向集成的、多模态的音频大语言模型(Audio LLM)。
音频
对比
开源
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟
ASR
(目前已开源),SenseVoice-Large 支持超过 50 种语言的高精度
ASR
。
asr
tts
声音
OpenAI
【语音识别】OpenAI语音力作Whisper
一、介绍 Whisper 是一系列用于自动语音识别 (automatic speech recognition,
ASR
) 的预训练模型,它由来自于 OpenAI 的 Alec Radford
语音转文字
whisper
金融
MCI-GRU:在真实金融交易中验证有效的股票价格预测模型
评价指标涵盖年化收益率(ARR)、年化波动率(AVol)、最大回撤(MDD)、年化夏普比率(
ASR
)、卡玛比率(CR)和信息比率(IR)。
MCI-GRU
股票
大模型
开源
十大开源语音识别项目
Automatic Speech Recognition(
ASR
)是一项自动语音识别技术,其目标是通过计算机自动将人类口头语音转录为文本。
语音识别
开源项目
语音
语音识别的新拐点:OLMoASR 带来的机会
而支撑这一切的,就是
ASR
(自动语音识别) 技术 01 什么是
ASR
?
OLMoASR
语音识别
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
对于音频对齐,作者收集了开源和内部的数据集,用于自动语音识别(
ASR
)和音频问答(AQA)。
Baichuan-Omni
多模态大模型
数字人
数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(
ASR
)和文本标注,协助初学者创建训练数据集和
数字人
声音克隆
GPT-SoVITS
语音
国内厂商语音识别与Whisper评测:现状与概况对比
二、评测意义与预期成果 语音识别(speech recognition)技术,也被称为自动语音识别(Automatic Speech Recognition,
ASR
)、电脑语音识别(Computer
语音识别
Faster-Whisper
开源
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
· 支持多个
ASR
(自动演讲识别) 配方 · 支持类似于
ASR
配方一样的 TTS (文本转声) · 支持 ST (Speech Translation
AudioCraft
音频
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
我们发现这个任务不仅在超越语音信号的基于语音的问题回答任务(如声音和音乐)方面改进了接地任务,还改善了
ASR
的性能。
大模型
语音
开源
开源免费离线语音识别神器whisper如何安装
Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,
ASR
)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文
wisper
翻译
免费
大模型
中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
相较以往的传统方案,LLaSM 能够通过便捷的语音输入的交互方式,大幅改善过往以文本为输入的大模型的使用体验,同时有效避免基于
ASR
解决方案的繁琐流程以及可能引入的错误。
开源模型
大模型
“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了
SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务: 语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(
ASR
大模型
开源模型
语音
<
1
2
>
1
2
4
5
6
7
8
9
100