文章列表-AI魔法学院

文章列表

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

不管是唱歌视频，还是讲话视频，只要提供一张肖像照片，外加一段音频，算法就会自动生成一段口型完全能对上、画面生动的视频出来。

EMO 阿里全民演唱

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。

可灵快手文生视频

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

AI音乐热潮下，“神曲工作室”率先失业

她觉得，AI音乐可能会对抖音等平台上批量产出的歌曲产生较大影响，甚至不排除视频平台自主引入AI作曲机制，影响由第三方负责的“神曲”创作的生存空间。

音乐音频

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

Sora生成的视频与此前其它平台生成的视频到底有哪些区别？

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

而这一次的项目，就是被N多人期待了很久的，腾讯混元视频生成模型。

sora 视频生成

Insanely Fast Whisper：超快的Whisper语音识别脚本

通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。

音频 Whisper

Sora懂不懂物理世界？

Sora的基本原理 Sora的训练集为短视频集，每个样本是一个短视频，Sora将其编码到数据空间进行降维，然后在隐空间中将特征向量切割成补丁，加上时间顺序，构成时空补丁，亦即时空令牌（time-space

文生视频视频生成 sora

15种ChatGPT高频用法

本文列出了15个可以高频使用chatgpt以及其他大模型的场景，希望对您会有启发

大模型效率

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1