首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· MidjourneyAPI
· Sara2.ai
· 你的下一个浏览器,可以是豆包电脑版!
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 喂饭级 AI’MWISE 启动器安装教程
· 如何从零开始训练专属 LoRA 模型?4600字总结送给你!
· 8G显存一键训练,解锁Llama2隐藏能力!XTuner带你玩转大模型
· 用AI生成PPT、用AI优化PPT!
· 免费AI数字人制作详解
· 新模型Cascade你真的用对了吗?!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
[中
文
开源震撼首发]33B QLoRA大
语
言模型Anima真的太强大了!QLoRA技术可能是AI
转
折点!
我们开源了第一个中
文
QLoRA 33B大
语
言模型——Anima。
开源模型
6.2K Star!MIT出品的多
语
言
语
音
合成神器,CPU实时推理吊打商业软件!
10种
语
言随便选,CPU就能实时合成,中英
文
混读丝滑得不像话。
MeloTTS
语音工具
国内厂商
语
音
识别与Whisper评测:现状与概况对比
、微信、王者荣耀
语
音
转
文
字
· 百度:AIl开放平台、智能云、
语
音
搜索、地图、小度
音
响、
语
音
输入法
语音识别
Faster-Whisper
【进阶】-
文
生图术
语
解释
念咒 提示词组合 (prompts) 施法/吟唱/t2i
文
本
转
图像 (txt2img) i2i
文生图
神奇的 OuteTTS - 0.1 - 350M:用几秒钟
音
频克隆声
音
的黑科技!
在当今数
字
化时代,
文
本
转
语
音
(TTS)技术的应用愈发广泛,从智能
语
音
助手到有声读物,从无障碍服务到教育娱乐领域,都离不开高质量的
语
音
合成。
OuteTTS-0.1-350M
音频
LLM
从专业ASR到统一
音
频LLM:七大顶尖模型的深度对比分析
语
音
和
音
频处理领域正在经历一场重大变革,从专门的自动
语
音
识别(ASR)系统,
转
向集成的、多模态的
音
频大
语
言模型(Audio LLM)。
音频
对比
Agent
【万
字
长
文
】全球AI Agent大盘点,大
语
言模型创业一定要参考的60个AI智能体
PS:因本
文
盘点的Agent项目众多,故而
字
数也达到了1W+,建议大家先收藏再阅读。
大语言模型
开源
有感情的
语
音
合成开源模型:ChatTTS安装使用详解
ChatTTS是一个为对话场景设计的
语
音
生成模型,专门用于大型
语
言模型(LLM)助手的对话任务、对话
语
音
和视频介绍等应用。
ChatTTS
语音合成
将
文
本
转
化为3D动画:DeepMotion推出MotionGPT,开启动画新时代!
这是一款基于生成式AI的工具,可以将
文
本提示无缝
转
换为复杂的3D动画,简化了动画创作过程,同时也超越了物理障碍,使得更多不同类型的创作者和行业可以使用3D动画。
3D
动作捕捉
开发
语
音
产品时设计唤醒词和命令词的技巧
在实际开发
语
音
产品过程中,要达到好的
语
音
识别效果,除了
语
音
算法要给力外,设计出好的唤醒词和命令词也能起到事倍功半的效果。
语音产品
唤醒词
命令词
开源
开源即巅峰!微软VibeVoice 7B模型:跨
语
言、多说话人、长
文
本一次到位
在当今数
字
化时代,
文
本
转
语
音
(TTS)技术的应用越来越广泛,从智能助手到有声读物,再到播客等多媒体内容创作。
VibeVoice
7B
语音
Stable Diffusion
Stable Diffusion图生图(真人
转
动漫)
一、简介 今天给大家分享使用Stable Diffusion图生图进行真人
转
动漫,木木共使用了五种模型进行真人
转
动漫测试,重绘幅度在0.45~0.6之间,如果重绘幅度过大,会导致生成的图片偏离主体样貌
StableDiffusion
图生图
数
字
人起飞!
字
节Loopy对口型功能在即梦上线 可根据
语
境匹配表情和情绪
这个让数
字
人声
音
完美匹配画面还匹配表情和情绪的对口型项目已经正式在即梦上线了。
Loopy
视频
开源
GPT-4o实时
语
音
方案提供商Livekit开源voice agent:轻松处理
音
视频流
轻松访问 LiveKit WebRTC 会话并处理或生成
音
频、视频和数据流。
voice
agent
开源
音视频
开源
一款构建AI数
字
人项目开源了!自动实现
音
视频同步!
本周GitHub项目圈选: 主要包含
音
视频同步、多代理框架、3D对象模型、适用于开发者的演示
文
档构建工具、网页程序打包、自构建CRUD应用等热点项目。
AI数字人
音视频同步
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100