首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 国产视频制作之光-可灵:提示词大全整理
· 建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南
· 分享一个结构化AI提示词模版
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· MiniCPM 4.1 开源!代码、数学推理速度快了 3 倍!
· ChatGLM智谱清言
· 完整ChatGLM3部署教程,支持手机和车载平台部署
· 中文通用大模型评测基准发布,全方位解析评价维度,助你选出最优秀的模型!
· 用Midjourney给自己制作精美的logo或头像
· 和大模型相关的一些术语(持续更新中)
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
生成式AI领域拓展!MetaAI开源AudioCraft:一个支持AudioGen、MusicGen等模型的
音
频生成开发框架
音
乐可能是最具挑战性的
音
频类型,因为它由局部和长程模式组成,从一系列
音
符到具有多种乐器的全局
音
乐结构。
开源模型
Python
Whisper对于中文语
音
识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语
音
做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过
Whisper
语音优化
希
音
面试:SSE 底层原理是什么?快20年了, 为何 突然 爆火?
最近有小伙伴在面试希
音
、滴滴、阿里等,都到了这个的面试题。
SSE
大模型
DeepMusic发布“和弦派”2.0:重塑AI
音
乐创作范式,赋予创作者全方位掌控
4月29日,国内领先的人工智能
音
乐服务商DeepMusic,发布了自主研发的AI
音
乐工作站——“和弦派”2.0正式版。
和弦派
DeepMusic
音乐创作
换脸
除了深度换脸、模拟配
音
,还能口型匹配的AI软件出现了
DeepMedia公司的创始人Rijul Gupta表示:“我们基本上已经完美地实现了这项新技术,任何人都可以克隆任何人的
声
音
,并通过5秒钟的
音
频参考,让它用不同的语言说话。”
AI
LLM
从专业ASR到统一
音
频LLM:七大顶尖模型的深度对比分析
编码器处理整个
音
频输入,以创建一个丰富的
声
学表征。
音频
对比
6.2K Star!MIT出品的多语言语
音
合成神器,CPU实时推理吊打商业软件!
Bert的加入让语
音
的韵律和情感表达更自然。
MeloTTS
语音工具
开源
OpenAI真的开源了!这波「实时语
音
」操作,让万物开口说话,我爱了
以前,智能玩具里只能播放预设的程序和
声
音
,顶多就是进行一两轮简单提问,你可以理解成是“单向输出”,现在有了这个 openAI 的实时语
音
软件开发包,就变成了“双向交互”,能和你进行实时的语
音
对话。
OpenAI
嵌入式实时语音
SDK
数字人
SadTalker数字人常见问题3
SadTalker数字人制作工具,用自带的图片
音
频可以生成,而用自己的图片、
音
频生成视频就不行。
SadTalke
OpenAI
whisper-live:OpenAI Whisper模型的近实时实现
该项目是一个实时转录应用程序,使用 OpenAI Whisper 模型将语
音
输入转换为文本输出。
OpenAI
Whisper
大模型
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/
音
频/文本
作者的
音
频涵盖44种
音
色,确保
音
色丰富多样。
Baichuan-Omni
多模态大模型
「语
音
识别的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“语
音
识别的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语
音
交互大模型
它在语
音
合成方面表现卓越,利用先进的深度学习技术,实现了高质量的语
音
输出,其发
音
精准、流畅自然,仿佛真人发
声
。
Westlake
-
Omni
语音
阿里
阿里&字节发表VividTalk,只需单张照片即可根据
音
频生成栩栩如生的人物说话头像视频
它通过先进的
音
频到3D网格映射技术和网格到视频的转换技术,实现了高质量、逼真的
音
频驱动的说话头像视频生成。
VividTalk
视频
<
...
2
3
4
5
6
7
8
9
10
11
...
>
1
2
4
5
6
7
8
9
100