文章列表-AI魔法学院

文章列表

字节跳动推出MagicVideo-V2：引领AI视频生成新时代。

字节跳动公司最新推出的MagicVideo-V2，正是一款能够将你的文字描述转化为精美视频的AI视频生成模型。

MagicVideo-V2 视频生成

解读wav2lip：探究语音驱动唇部动作的技术原理！

具体来说，wav2lip的训练流程如下：首先，提取音频特征，将音频特征与人脸图像进行配对，形成一个音频-图像对，然后训练专家音频和口型同步判别器。

wav2lip 语音

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

不管是唱歌视频，还是讲话视频，只要提供一张肖像照片，外加一段音频，算法就会自动生成一段口型完全能对上、画面生动的视频出来。

EMO 阿里全民演唱

国产视频制作之光-可灵：提示词大全整理

🍎图生视频建议一次一个词，如托腮，抬头。

可灵 kling 视频

Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频

Video 视频创作 SD

AI创作｜如何通过GPT进行漫画视频的故事改写

随着AI绘画在今年爆火后，通过AI的方式制作的漫画类小说推文视频在短视频平台中爆发式增长。

生成式AI

AI绘画：InstantID Win11本地安装记录！

Windows11+Conda+git 1.克隆代码打开CMD工具，通过CD命令进入到指定目录，然后克隆代码。

InstantID Win11 安装

Stable Diffusion

【Stable Diffusion】高效率视频转AI动画！EbSynth插件全流程操作

最近小朋友开始学习跑酷，这段动画是我用他上课时候的一段练习视频制作的。

AI编程 EbSynth 动画

用so-vits-svc-4.1进行音色转换的极简教程

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

声音 sovits

用so-vits-svc-4.1进行音色转换的极简教程！

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

so-vits-svc 音色转换教程

RAG 2.0来了，它能成为生产落地的福音吗？

RAG 2.0方法就是克服这样的局部优化办法，通过将预训练、微调和对齐所有组件形成一个统一系统，通过反向传播同时优化语言模型和检索器，以最大化系统性能。

RAG 大模型

OpenAI视频模型Sora的推理生成成本多高？

由于 Diffusion 模型训练 text to video 需要高质量的标注视频，因此我们可以估计 Sora 训练的视频量级为 1亿分钟左右。

Sora 推理算力

免费的文本生成视频解决方案：AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI

AnimateDiff 是一个基于 Stable Diffusion 模型的文本生成视频插件，它通过控制模块影响图像生成过程，使得生成的图像序列具有与训练视频剪辑相似的特征。

视频生成文生视频

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

这意味着它能够同时处理多个音频片段，大幅缩短了从语音到文本的转换时间。

Whisper 语音识别

开源免费离线语音识别神器whisper如何安装

拿我自己录的一段音频举例，5min长度400多字，使用whisper的medium模式识别，只错了两个英文单词，那两个英文单词还是因为发音问题识别错误。

wisper 翻译免费

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1