文章列表-AI魔法学院

文章列表

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法

之前虽然小视频生成比较火，不过出的视频都不太稳定，目前来看 AnimateDiff 是相对比较稳定的，而且能同时支持和其他插件一起使用。

动画 animate sd

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法！

之前虽然小视频生成比较火，不过出的视频都不太稳定，目前来看 AnimateDiff 是相对比较稳定的，而且能同时支持和其他插件一起使用。

文本生成视频 AnimateDiff

再次重点介绍！！！这款国内的AI制作视频工具

之前介绍过一款图片生成视频的工具-Flow Photo，99%的人不知道的一款国内的AI制作视频工具。

Flow Photo 视频

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

语音和音频处理领域正在经历一场重大变革，从专门的自动语音识别（ASR）系统，转向集成的、多模态的音频大语言模型（Audio LLM）。

音频对比

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学&字节提出MagicPose，一种新颖有效的方法，提供逼真的人类视频生成，实现生动的运动和面部表情传输，以及不需要任何微调的一致的野外零镜头生成。

MagicPose 视频

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动最近推出了一款名为PersonaTalk的AI模型，这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。

PersonaTalk 视频

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

关于AI声音生成的一切（语音+音乐+嘴型）

2D/3D/视频生成最近都有很多值得关注的工具，但是要输出完整的AIGC作品，肯定少不了声音。

声音

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

“视频版ControlNet”来了！

ControlNet

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

Roop参数说明，ROOP->StyleGAN演示！

因为这个视频刚好有很多张脸，然后又是多角度60帧4K的动态视频，所以我觉得非常适合拿来测试ROOP。

视频 StyleGAN

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

ensp;Sora发布的潜在影响 ▎C端 / 对于普通人 •这或许是独立创作者最好的年代，Sora发布之后，文案、音效

sora openai 视频生成

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1