首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· ComfyUI的特性以及安装流程
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· ChatGLM智谱清言
· 第3期 SDXL和SD的10大区别!你知道几个?
· 爆肝!超详细的胎教级Midjourney使用教程,看这一篇就够!
· 人工智能训练的灾难性遗忘以及解决方案
· ComfyUI,你开启XL钥匙打开了新世界
· DALL-E 3 不只是文生图!10 个案例颠覆认知
· whisper-live:OpenAI Whisper模型的近实时实现
· LLM Agent最常见的九种设计模式(图解+代码)
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
开源
语
音
大
语
言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
作为一种重要模态,
语
音
提供了超越文本的多样且复杂的信号,如人声中的情感、
语
调和意图,自然声
音
中的火车汽笛、钟声和雷声,以及
音
乐中的旋律。
大模型
语音
Insanely Fast Whisper:超快的Whisper
语
音
识别脚本
项目简介 这篇内容介绍了OpenAI的Whisper Large v2
语
音
转录模型的超快速能力。
音频
Whisper
RVC和SVC声
音
模型难找?推荐这个网站
本篇文章介绍:1, 声
音
数据集训练到模型的过程 2 ,SVC和RVC声
音
模型网站推荐 一、声
音
数据集训练到模型的过程
AI
声
音
模型训练是通过分析大量
音
频数据来学习声
音
特性,生成与目标声
音
相似的新
音
频
声音克隆
数字人
Google
AI
“同声传译”新进展!Google发布,无监督,
语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的
语
音
转换为文本的技术,然而,目前的
语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的
语
言。
Translatotron
语音识别
解读wav2lip:探究
语
音
驱动唇部动作的技术原理!
本文将深入介绍一下wav2lip的技术原理和细节,了解它是如何实现
语
音
驱动唇部运动的!
wav2lip
语音
开源
【开源项目】Flow Matching
语
音
合成
CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入
语
音
合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
视频
厉害了,匹诺曹Pinokio!所有
AI
工具,一键安装,全部免费!整合
AI
绘画、
AI
视频、
AI
语
音
...
Pinokio,无脑一键部署主流
AI
模型项目!
AI绘画
AI视频
AI音乐
OpenAI
基于 OpenAI Whisper 模型的实时
语
音
转文字工具
· WhisperLive 是一款专注于
音
频处理和创作的开源软件,使用 OpenAI Whisper 模型将
语
音
输入转换为文本输出,可以用于转录麦
克
风的实时
音
频输入和预先录制的
音
频文件,为艺术家和
音
乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
「
语
音
识别的未来已来」——探索Distil-Whisper,轻量级
AI
的强大力量
在
AI
技术的浪潮中,一款新型的
语
音
识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。
Distil-Whisper
语音识别
开源
开源免费离线
语
音
识别神器whisper如何安装
whisper介绍 Open
AI
在2022年9月21日开源了号称其英文
语
音
辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种
语
言的自动
语
音
辨识。
wisper
翻译
免费
「
语
音
转换新速度」— 探秘Whisper JAX的70倍速提升
在
AI
的众多分支中,
语
音
识别技术的突破性进展尤为引人瞩目。
Whisper
语音识别
AI
+
音
乐|对话 Suno CEO:破圈的
音
乐生成产品是如何诞生的?
创始团队 Mikey Shulman:担任首席执行官,他曾担任Kensho的机器学习主管,麻省理工学院斯
隆
管理学院的讲师,哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位;
suno
音乐
开源
有道开源的国产
语
音
库EmotiVoice爆火了!具有情绪控制功能的
语
音
合成引擎!
但是近期,网易有道
AI
算法团队也开源了一款国产TTS
语
音
合成引擎EmotiVoice,刚上线仅一周时间就暴涨4200颗星,问鼎当周GitHub trending流行榜第一。
EmotiVoice
语音库
6.2K Star!MIT出品的多
语
言
语
音
合成神器,CPU实时推理吊打商业软件!
呵呵,不是不支持就是发
音
像老外学中文 多
语
言切换?
MeloTTS
语音工具
数字人
最强开源数字人对口型系统介绍
大家好,今天给大家介绍的是开源“最强”的数字人
克
隆
方法 Easy-Wav2Lip: 仓库地址: https://github.com/anothermartz/Easy-Wav2Lip
数字人
开源模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100