视频魔法-AI魔法学院

视频魔法

一键AI换脸！小红书和北大合作的InstantID

本文介绍了作者在comfyUI上安装InstantID插件的过程，包括安装节点、相关模型，以及创建基础工作流和出图步骤。InstantID是小红书、北大等团队合作开发的AI绘画和视频插件，具有强大的面部识别和分析能力。作者还表达了对中国AI技术未来发展的信心，并介绍了InstantID的工作原理和模型下载地址。

InstantID 文生图 2024-05-17

腾讯开源混元AI绘画大模型

腾讯开源了其AI绘画大模型——混元大模型，该模型具有中文原生和多轮对话的特点。测试结果显示，其性能在某些方面超越了其他模型，但硬件门槛较高。文章提供了详细的安装和使用指南，包括依赖关系、环境设置、模型下载以及推理方式等，以方便创作者使用和优化该模型。

腾讯混元文生图 2024-05-15

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

文生图混元腾讯 2024-05-14

剪映专业版智能补帧

本文介绍了剪映专业版中的智能补帧功能，包括其作用、方法、适用情境和必要性。智能补帧可解决视频卡顿问题，使播放更流畅。剪映提供了光流法和帧融合两种补帧方法，效果与速度各有特点。在视频慢速播放时，补帧可避免卡顿。是否补帧取决于制作目的，如需卡顿效果则无需补帧。

剪映智能补帧 2024-05-09

基于 OpenAI Whisper 模型的实时语音转文字工具

WhisperLive是一款基于OpenAI Whisper模型的开源音频处理和创作软件，支持实时音频处理、效果制作和声音合成。具有跨平台支持、高度可定制性和直观的图形界面等特点。用户可以通过简单的安装步骤使用其进行音频文件的转录，也可以从麦克风或HLS流中实时转录音频。此外，WhisperLive是开源的，并得到了活跃社区的支持。

WhisperLive 音频开源软件 2024-05-08

划重点！全网最全AI数字人工具合集！

文章介绍了五款AI数字人工具，包括HeyGen、Kreado Ai、Vidoz AI、腾讯智影和剪映数字人。这些工具可以帮助用户轻松创建具有逼真效果的数字人视频，满足不同场景的视频创作需求。文章强调了这些工具的易用性、多样性和高质量输出，并提供了相应的推荐指数。

AI 数字人 2024-05-06

将文本转化为3D动画：DeepMotion推出MotionGPT，开启动画新时代！

DeepMotion发布了基于生成式AI的MotionGPT工具，可将文本提示转化为3D动画，无需专用硬件或技术知识。MotionGPT提供高度动态的动画创作体验，超越物理障碍，支持各类创作者和行业。测试版将于2024年冬季推出，DeepMotion致力于革新动画行业。

3D 动作捕捉 2024-05-05

RVC和SVC声音模型难找？推荐这个网站

本文介绍了AI声音模型训练过程，包括数据预处理、模型构建、训练、评估和优化，强调了高质量音频数据和计算资源的重要性。同时，推荐了SVC和RVC声音模型网站，特别是“声音模型工坊http://mxgf.cc”，该网站页面简洁大气，提供大量模型资源和在线试听功能，是AI声音模型学习和研究的优质资源平台。尽管部分优质模型收费，但网站也提供免费公开的声音数据集和声音模型供个人学习测试使用。

声音克隆数字人 2024-05-03

Threejs: 数字人生成金色动态粒子效果

本文介绍了生成金色动态粒子人的代码，包括顶点着色器和片元着色器的代码，这些代码可以模拟亚运会的数字人效果。动画功能使用了gsap的插件，粒子效果主要用的是glsl代码。文章提供了源码地址，并出自微信公众号。

Threejs 数字人 2024-04-29

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

VividTalk是南京大学、阿里巴巴、字节跳动和南开大学联合开发的前沿技术，能将单张照片和音频结合生成逼真的讲话视频。该技术通过音频到3D网格的映射和网格到视频的转换，实现了高质量的视觉效果和真实感。VividTalk在数字媒体制作、虚拟现实和人工智能等领域有广阔应用前景，为创造更丰富和互动的数字体验提供了新可能。

VividTalk 视频 2024-04-28

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

本文介绍了阿里巴巴通义实验室研发的AI模型EMO，该模型能够让照片中的人物按照音频内容“张嘴”唱歌、说话，并且口型基本保持一致。EMO在两个月内被产品化并上线通义APP，成为全民免费可用的AI视频模型。该模型降低了人物视频的生成门槛，提升了生成质量，有望在视频制作、影视创作、电商直播等领域得到广泛应用。然而，随着EMO的普及，人们开始担心其可能被滥用，阿里云方面表示将采取措施确保内容安全并保护用户信息安全。文章还指出，AI大模型行业正在快速发展，通义APP有望成为一个包罗万象的工具铺，成为每位用户手中一个随叫随到的超级AI助手。阿里在大模型的C端入口上步伐最快，已经上线了众多免费功能。

EMO 阿里全民演唱 2024-04-27

再次重点介绍！！！这款国内的AI制作视频工具

之前介绍过一款图片生成视频的工具-Flow Photo，99%的人不知道的一款国内的AI制作视频工具。这几天陆续有小伙伴问我关于这个工具的作用以及如何使用，今天详细地跟大家介绍下这款AI工具。

Flow Photo 视频 2024-04-23

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

这是一款可以持续记录屏幕画面、通过关键词搜索等方式随时找回相关记忆的工具。它的所有能力（录制、识别处理、存储回溯等）完全运行在本地，无需联网，不上传任何数据，只做应该做的事。

Windrecorder 录屏 2024-04-22

字节跳动推出MagicVideo-V2：引领AI视频生成新时代。

字节跳动推出AI视频生成模型MagicVideo-V2，将文字描述转化为精美视频。该模型利用T2I、I2V、V2V和VFI模块，生成高保真、高分辨率的视频。相比其他工具，MagicVideo-V2在视频质量上有显著优势，适合创意、教育和培训专业人士使用。虽未开源，但未来可能提供代码库和在线体验。

MagicVideo-V2 视频生成 2024-04-16

实时语音克隆

文章介绍了实时语音克隆技术的实现，使用SV2TTS框架和波形神经网络进行多说话人的文本到语音合成。提供了安装和配置步骤，包括安装要求、可选的预训练模型下载、测试配置、数据集下载和工具箱启动。项目链接为https://github.com/CorentinJ/Real-Time-Voice-Cloning。

语音克隆 2024-04-15

<1 234 5 6 7 8 9 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1