视频魔法-AI魔法学院

视频魔法

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是腾讯团队开发的音频驱动唇部同步模型，能实时调整数字人物面部图像以匹配音频内容，支持多语言。然而，其实时性和高质量受质疑，实测推理速度较慢且效果不理想。尽管存在不足，该团队致力于推动数字人技术发展，值得肯定。用户可根据需求选择是否使用，同时作者提供了改进建议及替代服务选项。

MuseTalk 数字人音频 2024-08-30

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

文章介绍了OpenAI发布会外的实时对话语音技术，特别是LiveKit作为GPT-4o背后的技术支持，提供了语音、视频、数据流处理及AI集成方案。通过案例探讨了LiveKit在潮玩模型、实时翻译耳机等场景的应用，并强调其作为开发者实现实时语音交互的便捷工具，展望未来应用前景广泛。

GPT-4o 语音交互 2024-08-27

FFmpeg之父新作——音频压缩工具 TSAC

FFmpeg作者Fabrice Bellard发布了音频压缩工具TSAC，利用深度学习中的Transformer结构提升性能，实现极低比特率下的高质量音频压缩。TSAC采用RVQGAN技术，通过级联VQ和GAN训练提升压缩效果，具备多速率编码能力和降噪功能。然而，压缩后音频存在高频细节丢失等问题。

TSAC 音频工具 2024-08-23

4K star！录屏好帮手，超酷的实时按键显示工具

Keyviz是一款免费开源的跨平台实时键鼠输入可视化软件，能显示按键和鼠标操作，支持自定义样式和过滤特定按键，但2.0版本尚在alpha阶段，存在点击飘逸、配置不生效等问题，整体显示效果优秀，适合录制教程或演示时使用。项目GitHub链接为https://github.com/mulaRahul/keyviz，已有4K Star。

Keyviz 录频 2024-08-01

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

阿里巴巴通义实验室XR团队在2024中国生成式AI大会上展示了人物视频生成新范式，包括人物动作、换装、替身、唱演四大框架，已应用于通义千问APP。这些框架分别通过Animate Anyone、Outfit Anyone、Motionshop和Emote Portrait Alive技术，实现了从单张图到复杂视频内容的生成，展现了行业领先地位和丰富的应用潜力。

通义文生视频 2024-07-29

阿里出品自动化视频剪辑工具FunClip！

FunClip是阿里达摩院开源的本地部署视频剪辑工具，依托FunASR模型实现语音自动识别，支持热词定制、说话人识别、视频裁剪与多段剪辑，自动生成SRT字幕，提供Gradio交互界面和命令行操作，简化视频剪辑流程。一键启动包避免复杂环境配置，适用于Windows10/11 64位系统，需8G以上英伟达显卡。

FunClip 视频阿里 2024-07-26

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

文章概述：文章介绍了一个名为EMO的AI视频项目，该项目来自阿里通义实验室，允许用户通过上传人物正面大头照和选择音频片段，生成具有自然表情和头部运动的视频。该功能在通义App上受到欢迎，用户可以通过“全民舞台”功能体验。EMO采用弱控制设计，不强制建模整个面部，而是通过面部定位器和速度编码器等控制机制实现自然流畅的生成效果。项目负责人薄列峰表示，技术开源前需解决安全问题，并透露未来计划将EMO扩展到半身、全身，并可能引入新架构。同时，EMO背后团队专注于数字人研究，通过奶牛猫跳舞等动物主题激发用户兴趣，强调高质量AIGC内容的重要性。最后，文章推荐了EMO的一个私房玩法，即使用自己不同年龄段的照片进行合唱。

音频阿里 2024-07-23

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

本文介绍了一个基于LiveKit WebRTC的代理框架，用于构建实时、可编程的服务器端参与者，能够处理或生成音频、视频和数据流。该框架包括多种插件，如语音转文本（STT）和文本转语音（TTS）等，与LiveKit服务器无缝集成，无需额外排队基础设施。当前处于开发者预览模式，API可能变动。代理通过pip安装，并可通过CLI接口运行，支持加入特定的聊天室。此外，提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例，并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。

voice agent 开源音视频 2024-07-22

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频，实现了口型同步和人物自然动作。用户可通过通义千问免费体验，但当前版本限制多，如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高，但EMO的定制化有限，主要考虑因素包括视频质量、风控、版权和算力消耗。目前，EMO更多作为尝鲜产品，未来需改进才能应用于更广泛场景。

EMO 阿里全民演唱 2024-07-17

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

文章介绍了阿里语音团队最新开源的FunAudioLLM项目，旨在提升人类与大型语言模型的自然语音交互体验。项目包含SenseVoice和CosyVoice两个核心模型：SenseVoice负责语音识别和音频处理，支持多语言识别、低延迟、高性能及情感识别；CosyVoice则专注于语音生成和控制，支持多语言、零样本学习、情感共鸣及语音克隆等功能。文章还详细阐述了这两个模型的特点、应用场景，并提供了在

asr tts 声音 2024-07-11

国产视频制作之光-可灵：提示词大全整理

国产视频制作正蓬勃发展，而可灵无疑是其中的闪耀之光！我们为您精心整理了一份提示词大全，堪称国产视频制作的宝藏秘籍。在这个大全里，您能找到各类丰富、实用且极具创意的提示词，无论您想要制作何种风格、何种主题的视频，它都能为您提供灵感指引。可灵的这份提示词大全，将助您在国产视频制作的道路上更加轻松顺畅，让您的创作之旅充满惊喜与可能！

可灵 kling 视频 2024-07-09

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

ChatTTS 文本转语音项目在github爆火出圈，引来大家极大的关注。短短2周左右的时间，在 GitHub 上已经斩获了23.5k的Star量。本文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

chattts tts 文生语音 2024-06-21

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

「可灵」全新国产视频生成大模型开始内测了。它采用了Sora相似的技术路线，结合多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。主打一个务实，不开空头支票、发布即上线，可灵大模型已在快影APP中正式开启邀测。

可灵快手文生视频 2024-06-09

SD3 正式开源 Sora同源架构

本文介绍了stability_ai发布的最新模型Stablediffusion3，该模型与OpenAI的Sora在架构上相似，都采用了Diffusion Transformer方式。Stablediffusion3具有生成视频、3D内容的能力，模型参数量增加至8亿，提升了图像质量。同时，介绍了即将推出的SD3 Medium模型，具有照片级真实感、优秀的字体排印学表现、高效性能以及微调能力，适用于定制和创意工作。

SD3 绘画 2024-06-03

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是专为对话场景设计的语音生成模型，支持中英文，效果出色。它可集成于大型语言模型助手，提供自然流畅的交互体验。用户可简单提供文本获取语音文件。项目提供安装指南，包括下载源码、安装依赖、编写执行代码、自动下载模型及通过webui运行等步骤。用户可通过界面添加笑声和停顿，提升语音效果。

ChatTTS 语音合成 2024-05-30

<123 4 5 6 7 8 9 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1