首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 造梦师手记:SDXL迎来了AI插画师
· Prompt全攻略(三):提升Prompt效果的技巧指南
· 深入探讨:Agent全自动写作长篇小说技术原理解析
· 免费的文本生成视频解决方案:AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI
· 无需编码,轻松提升图像品质:探索ComfyUI的图像增强功能
· PPT又又有新突破了!智谱AI代码流造PPT
· AI创作 |如何通过GPT进行漫画视频的故事改写
· ComfyUI 基础教程(一)环境部署和插件安装
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
从 GPT-4o 到 LiveKit:实时语
音
交互的开源实现
今天我们来聊聊OpenAI 发布会提到的实时对话语
音
技术。
GPT-4o
语音交互
换脸
除了深度换脸、模拟配
音
,还能口型匹配的AI软件出现了
DeepMedia公司的创始人Rijul Gupta表示:“我们基本上已经完美地实现了这项新技术,任何人都可以克隆任何人的声
音
,并通过5秒钟的
音
频参考,让它用不同的语言说话。”
AI
开源
生成式AI领域拓展!MetaAI开源AudioCraft:一个支持AudioGen、MusicGen等模型的
音
频生成开发框架
音
乐
可能是最具挑战性的
音
频类型,因为它由局部和长程模式组成,从一系列
音
符到具有多种
乐
器的全局
音
乐
结构。
开源模型
开源
OpenAI真的开源了!这波「实时语
音
」操作,让万物开口说话,我爱了
以前,智能玩具里只能播放预设的程序和声
音
,顶多就是进行一两轮简单提问,你可以理解成是“单向输出”,现在有了这个 openAI 的实时语
音
软件开发包,就变成了“双向交互”,能和你进行实时的语
音
对话。
OpenAI
嵌入式实时语音
SDK
6.2K Star!MIT出品的多语言语
音
合成神器,CPU实时推理吊打商业软件!
呵呵,不是不支持就是发
音
像老外学中文 多语言切换?
MeloTTS
语音工具
数字人
SadTalker数字人常见问题3
SadTalker数字人制作工具,用自带的图片
音
频可以生成,而用自己的图片、
音
频生成视频就不行。
SadTalke
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是由腾讯团队开发的先进技术,它是一个实时高质量的
音
频驱动唇部同步模型。
MuseTalk
数字人
音频
Google
AI“同声传译”新进展!Google发布,无监督,语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的语
音
转换为文本的技术,然而,目前的语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的语言。
Translatotron
语音识别
开源
通过声
音
生成逼真的全身形象?!Meta开源AI工具:audio2photoreal
这是一个由Facebook研究院开发的技术,可以根据
音
频生成逼真的人物视频!
audio2photoreal
开源工具
OpenAI
whisper-live:OpenAI Whisper模型的近实时实现
该项目是一个实时转录应用程序,使用 OpenAI Whisper 模型将语
音
输入转换为文本输出。
OpenAI
Whisper
大模型
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语
音
交互大模型
在语
音
合成中,它可以根据文本内容和情感需求,调整语
音
的韵律和
音
色,生成富有情感表现力的语
音
。
Westlake
-
Omni
语音
用GPT4创建一部连环画故事
今天的故事主题是戒掉电子产品,享受户外活动的
乐
趣。
GPT4
连环画故事书
开源
F5-TTS:上海交大开源超逼真声
音
克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛
音
频克隆的开源项目很多,但是每次项目里要用的时候,总还是惦记着11labs的api。
F5-TTS
音频克隆
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/
音
频/文本
对于
音
频对齐,作者收集了开源和内部的数据集,用于自动语
音
识别(ASR)和
音
频问答(AQA)。
Baichuan-Omni
多模态大模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100