首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 高效选择:Ollama与LM Studio深度对比
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· 【Agent专题】Agent架构设计:智能体架构设计的9大核心技术全景深解析,附架构图
· 赛博牛马,智谱 AI,悄悄出了一个 AI PPT
· Embedding开源模型重磅玩家:北京智源人工智能研究院最新Embedding模型发布!登顶MTEB,免费商用授权!
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 2024年傅盛开年AI大课演讲内容PPT
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Google
AI“同声传译”新进展!Google发布,无监督,
语
音
识
别
:Translatotron 3!
语
音
识
别
(ASR)是指将人类的
语
音
转换为文本的技术,然而,目前的
语
音
识
别
技术还面临着一些挑战,其中最大的一个就是如何支持更多的
语
言。
Translatotron
语音识别
语
音
识
别
的未来已来:深入了解faster-whisper的突破性进展
这种
实
现不仅提高了
语
音
识
别
的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
6.2K Star!MIT出品的多
语
言
语
音
合成神器,CPU
实
时
推理吊打商业软件!
10种
语
言随便选,CPU就能
实
时
合成,中英文混读丝滑得不像话。
MeloTTS
语音工具
「
语
音
识
别
的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“
语
音
识
别
的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
开源
OpenAI真的开源了!这波「
实
时
语
音
」操作,让万物开口说话,我爱了
但现在回想起来,那只麋鹿的“能说会道”,其
实
正是 OpenAI 今天才正式揭晓的“谜底”——他们开源了一个叫做嵌入式
实
时
语
音
SDK 的东西!
OpenAI
嵌入式实时语音
SDK
开源
GPT-4o
实
时
语
音
方案提供商Livekit开源voice agent:轻松处理
音
视频流
项目简介 代理框架设计用于构建在服务器上运行的
实
时
、可编程参与者。
voice
agent
开源
音视频
GLM-4-Voice 9B——
实
时
多
语
言
语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以
实
现无缝的
实
时
语
音
交互,支持英
语
和中文,并探索其独特的架构、低延迟响应和可定制的声
音
属性。
GLM-4-Voice
9B
语音
安装
「
语
音
转换新速度」— 探秘Whisper JAX的70倍速提升
在AI的众多分支中,
语
音
识
别
技术的突破性进展尤为引人瞩目。
Whisper
语音识别
开源
阿里巴巴
语
音
实
验室发布开源
语
音
处理框架ClearerVoice-Studio,支持
语
音
增强、分离、目标说话人提取
ClearerVoice-Studio 由阿里巴巴通义
实
验室开发,致力于为
语
音
处理技术的广泛应用提供坚
实
支持。
ClearerVoice-Studio
语音
开发
语
音
产品
时
设计唤醒词和命令词的技巧
在
实
际开发
语
音
产品过程中,要达到好的
语
音
识
别
效果,除了
语
音
算法要给力外,设计出好的唤醒词和命令词也能起到事倍功半的效果。
语音产品
唤醒词
命令词
视频
栩栩如生,
音
色克隆,Bert-vits2文字转
语
音
打造鬼畜视频
实
践
通过这两种任务,BERT能够学习到上下文感知的词嵌入和句子级
别
的
语
义表示。
Bert-vits
语音
OCR
【重磅推荐】PaddleOCR:超越人眼
识
别
率的AI文字
识
别
神器!
导
语
:在当今数字化
时
代,人工智能技术已经渗透到各个领域。
PaddleOCR
文字识别
OpenAI
whisper-live:OpenAI Whisper模型的近
实
时
实
现
项目简介 OpenAI 的 Whisper 的近乎
实
时
实
现。
OpenAI
Whisper
大模型
关于AI声
音
生成的一切(
语
音
+
音
乐+嘴型)
其
实
声
音
生成也有很多革命性的工具,例如高质量的声
音
识
别
、文字转成人声、人声克隆、
音
乐生成,已经能组成完整工作流了,其中一些工具甚至已经打包好了,只要下载解压就能用!
声音
动作
识
别
模型有哪些
TWO STREAM方法 Two-Stream方法是深度学习在动作
识
别
方向的一大主流方向。
动作识别
模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100