视频魔法-AI魔法学院

《特朗普爱上在白宫当保洁的我》拍好了，3个月赚了10个亿

中国土味短剧《特朗普爱上在白宫当保洁的我》在美国引发吐槽却大获成功，狂赚1.5亿美元。中国短剧团队发现美国市场偏爱土味剧情，开始大量输出此类短剧，包括霸道总裁题材，受到美国观众喜爱并付费观看，成为中国挣外汇的新途径。

短剧 2025-07-30

你的下一个浏览器，可以是豆包电脑版！

豆包电脑版升级，提供AI精读视频、脑图呈现、搜索笔记等功能，还能作为浏览器使用，支持截图提问、翻译、网页文字划词对照翻译等，且能写作、开会、图像生成，提升学习和办公效率。

豆包浏览器 2024-12-26

Sora

中学生能看懂：Sora 原理解读

Sora是OpenAI的视频生成AI模型，能将多样化视觉数据统一处理并生成与文本提示匹配的视频或图片，通过视频压缩网络、空间时间补丁及文本条件化的Diffusion模型等技术实现，支持多样化视频格式，改进视频构图，深度理解语言，处理多模态输入，能模拟3D一致性和长期一致性的世界互动，但仍面临物理世界模拟准确性、长视频生成一致性、复杂文本指令理解及训练生成效率等挑战。

Sora 原理 2024-12-23

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

本文介绍了OuteTTS-0.1-350M这款新兴的文本转语音（TTS）模型，包括其技术原理、功能特性、应用场景及使用方法。该模型基于LLaMa架构，采用纯语言建模方式，具有零样本语音克隆、高效音频处理及广泛兼容性等特点，适用于智能语音助手、有声读物制作及内容本地化等领域。文章还提供了快速使用指南，帮助用户安装、初始化接口、生成语音及进行语音克隆。

OuteTTS-0.1-350M 音频 2024-11-26

数字人

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

JoyHallo模型通过半解耦结构和中文wav2vec2模型，解决了普通话视频生成中数据集难收集和唇部动作复杂的问题，提升了普通话视频生成的唇部同步和面部表情准确性，同时表现出跨语言生成能力。

JoyHallo 数字人开源模型 2024-11-11

开源

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

MimicTalk是浙江大学和字节跳动联合研发的项目，利用NeRF技术快速训练高质量3D说话头像模型，提高个性化数字人视频生成效率和质量，适用于娱乐、教育、社交等领域，支持快速个性化训练、高质量视频生成、上下文学习和音频驱动，可应用于虚拟主播、视频会议、VR/AR、社交媒体、客户服务等场景，并提供了详细的部署条件和步骤。

MimicTalk 开源模型 2024-11-08

开源

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

本文展示了5款爆火的开源TTS语音克隆项目（Fish、F5、GPT-SoVITS、CosyVoice、MaskGCT）的效果，包括模型介绍、实战部署代码及效果展示案例，并提醒使用时需遵守项目要求和法律法规。

语音克隆开源模型 2024-11-06

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动推出AI模型PersonaTalk，可精准同步视频配音与人物口型，保留个性特征，快速适配多场景，通过双重注意力机制实现细节之美，远超同类模型，但限制在科研机构使用，为视频创作带来便利和可能性。

PersonaTalk 视频 2024-10-31

大模型

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

香港中文大学（深圳）与趣丸科技推出新一代大规模声音克隆TTS模型MaskGCT，该模型在10万小时多语言数据上训练，无需文本与语音对齐监督和音素级持续时间预测，展现出超自然语音克隆、风格迁移及跨语种生成能力。MaskGCT由四个主要组件构成，通过两阶段预测实现高质量文本到语音合成，在多个基准数据集上达到SOTA效果，并具备丰富的应用场景，如短剧出海、数字人等。相关项目已在开源系统Amphion发布，并推出“趣丸千音”平台加速应用落地。

MaskGCT 声音克隆 2024-10-31

大模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

突出多模态能力和交互体验的 GPT-4o 强调了其在实际应用中的关键作用，然而它缺乏一个高性能的开源对应物。在本文中，作者介绍了Baichuan-Omni，这是第一款开源的 7B 多模态大语言模型（MLLM），能够同时处理和分析图像、视频、音频和文本的模态，同时提供先进的模态交互体验和强大性能。作者提出了一种有效的多模态训练模式，从 7B 模型开始，经过两个阶段的多模态对齐和多任务微调，分别针对音频、图像、视频和文本模态。这种方法使语言模型能够有效地处理视觉和音频数据。通过在各种全模态和多模态基准测试上展示强大的性能，作者旨在将此贡献作为开源社区在推进多模态理解和实时交互方面的竞争性 Baseline 。

Baichuan-Omni 多模态大模型 2024-10-16

视频

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学字节提出MagicPose，一种基于扩散的模型，能生成逼真的人类视频，实现运动和面部表情传输，保持身份一致，无需微调即可应用于新身份和复杂运动。MagicPose可作为Stable Diffusion等模型的插件，具备生成零样本2D动画的能力，并在实验中展现出优越性能。

MagicPose 视频 2024-09-29

数字人

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

字节新项目Loopy在即梦上线，通过AI技术实现数字人声音、表情、情绪与画面完美匹配，解决传统对口型视频的割裂感，提供中文效果最佳的对口型服务，支持文本朗读和上传本地配音，让数字人更加真实自然。

Loopy 视频 2024-09-26

RAG

RAG 修炼手册｜一文讲透 RAG 背后的技术

本文详细介绍了从Embedding技术到Transformer、BERT、LLM（包括GPT系列和ChatGPT）等自然语言处理领域的发展历程及基本原理。Embedding将非结构化数据转为向量表示，Word2Vec是其早期代表，但存在多义词问题。Transformer通过自注意力机制捕捉上下文关系，推动了BERT等预训练模型的发展，实现了句子嵌入。GPT系列作为LLM的代表，通过不断迭代提升了文本生成能力，ChatGPT则进一步增强了响应指令、代码生成、推理等能力，但也存在数学能力弱、产生幻觉、知识不实时更新等不足。RAG技术作为解决方案之一，结合了向量数据库和LLM。整体而言，深度学习在自然语言处理领域的应用日益广泛，未来可期。

RAG Embedding 2024-09-23

数字人

腾讯出品！开源AI数字人框架！号称可以不限时长

MuseV是腾讯音乐娱乐天琴实验室开源的虚拟人视频生成框架，支持高质量视频、口型同步及无限长度视频生成，兼容多种生成方式和稳定扩散生态系统，提供多样化创作自由度，并发布了实时口型同步模型MuseTalk。MuseV将在娱乐、教育等领域发挥重要作用，引领虚拟人技术未来方向。项目地址在GitHub上。

MuseV 视频数字人框架 2024-09-14

AI音乐热潮下，“神曲工作室”率先失业

五一假期演唱会门票难求，反映音乐行业向头部化、现场化转型。AI作曲工具快速发展，引发音乐行业裁员潮，音乐人共识现场音乐将成为主要收入来源。AI音乐质量受争议，但已对抖音等平台神曲构成冲击。音乐人强调线下演出重要性，通过增强临场感和感染力保持竞争力，呼吁音乐人提升线下经营能力应对AI挑战。

音乐音频 2024-09-02