视频魔法-AI魔法学院

视频魔法

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

就说Sora有多火吧。生成的视频上线一个、疯传一个。英伟达高级研究科学家Jim Fan高呼，这就是视频生成的GPT-3时刻啊！尤其在技术报告发布后，讨论变得更加有趣。因为其中诸多细节不是十分明确，所以大佬们也只能猜测。包括“Sora是一个数据驱动的物理引擎”、“Sora建立在DiT模型之上、参数可能仅30亿”等等。所以，Sora为啥能如此惊艳？它对视频生成领域的意义是？这不，很快就有了一些可能的答案。

sora openai 视频生成 2024-02-17

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

在GPT技术不断爆火的背景下，人工智能技术也在不断的发展和演化。各种AI工具也层出不穷，其中语音克隆技术也是尤为引人瞩目的产品之一。而 OpenVoice 作为一款强大的多语言即时语音克隆AI工具，可以为用户提供高效、个性化的语音克隆服务，是一款值得推荐的项目。

tts 文本转语音 2024-02-15

全新换脸工具ReActor，比roop更强！

之前介绍过 SD 的换脸插件 roop，今天我们介绍一个比 roop 更强的换脸插件 ReActor，嗯，它们其实是一个作者，ReActor 是在 roop 的基础上更新换代的，roop 后续作者应该不维护了，所以小伙伴们可以直接使用 ReActor。之前 roop 介绍的比较简单，我们今天来详细介绍一下 ReActor。话不多说，我们直接开整。

ReActor roop 换脸 2024-02-01

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？你是否曾经想过，如果你能用不同的情感和语气来表达你的想法，那该多有趣？你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？如果你对以上问题的答案是肯定的，那么你一定会对EmotiVoice项目感兴趣。

EmotiVoice 语音合成 2024-01-26

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求。

Meta 语音生成 2024-01-25

ComfyUI进阶前必备插件们续

本文介绍了ComfyUI工具的生态和插件系统，重点介绍了6款必备插件和5款必装插件，以及ControlNet预处理器等重要工具。文章还提到了ComfyUI-Impact-Pack、ComfyUI_UltimateSDUpscale、abg-comfyui和comfyui-dynamicprompts等插件的使用方法和效果。最后，文章还介绍了B航线的安装方式，并预告了接下来的进阶操作。文章内容丰富，适合ComfyUI用户参考和学习。

ComfyUI 文生图 2024-01-24

阿里AI黑科技大揭秘：从通义千问到FaceChain，让图片和视频焕发新生！

阿里AI黑科技大揭秘：包括通义千问大模型、AnyText、Animate Anyone、Replace Anything、Outfit Anyone、FaceChain、I2VGen-XL和Animate 3D Motion，展示了阿里在AI领域的强大实力和广泛应用

阿里云视频音频 2024-01-19

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步 2024-01-18

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

AI视频 2024-01-16

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

前不久小圈为大家介绍过 Coqui 文本转语音（Text-to-Speech，TTS）模型，相比较市面上原有的开源TTS模型，Coqui 有其独特的优势，也受到了广大科技互联网爱好者的青睐。但是近期，网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice，刚上线仅一周时间就暴涨4200颗星，问鼎当周GitHub trending流行榜第一。而如今已冲到了 4.5k Sta

EmotiVoice 语音库 2024-01-16

OpenAI大动作：Whisper large-v3重塑语音识别技术

在最近的OpenAI首届开发者大会上，一个引人注目的技术亮点是Whisper large-v3的发布。这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。今天，我们就来深入了解这个技术突破，并探讨它如何改变我们与机器的交流方式。

Whisper 语音识别 2024-01-15

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

Translatotron 语音识别 2024-01-11

动画制作工具AnimateDiff用法详解

AnimateDiff 使用Stable Diffusion模型将文本提示转换为视频。您可以将其视为文本到图像的轻微概括：它不是生成图像，而是生成视频。

AnimateDiff 视频训练 2024-01-10

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。由Sanchit Gandhi开发的Whisper JAX就是这一创新旅程中的新星。它是OpenAI的Whisper模型的JAX版本，实现了在TPU上高达70倍的速度提升，这不仅是对现有技术的重大突破，更是对未来潜力的一次展现。

Whisper 语音识别 2024-01-08

Stable Diffusion

[Stable Diffusion]AnimateDiff ：最稳定的文本生成视频插件

在小视频风靡的时代，稳定的文本生成短视频成为了迫切需求。今天向大家介绍一款相对稳定且与其他插件兼容的工具——AnimateDiff。 .

AnimateDiff 视频训练 2024-01-08

<1 2 3 4 567 8 9 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1