文章列表-AI魔法学院

文章列表

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Sadtalker是一个能够根据图片和音频生成视频的开源项目，它使用了一种叫做SadNet的神经网络，可以实现风格化的单图说话人脸动画。

数字人

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

这款软件以其独特的优势和无限的可能性，为艺术家、设计师乃至广大创意爱好者提供了前所未有的视觉表达工具。

SD 视频课程 AI绘画

在 WebUI 中使用 AnimateDiff 的一些问题和技巧

这两天晚上没事的时候就会尝试下AnimateDiff，发现这真的让视频生成上了一个大台阶，估计是到了AI视频爆发的前夜了。

AnimateDiff SD

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

语音和音频处理领域正在经历一场重大变革，从专门的自动语音识别（ASR）系统，转向集成的、多模态的音频大语言模型（Audio LLM）。

音频对比

腾讯出品！开源AI数字人框架！号称可以不限时长

今天，介绍一个开源创新的虚拟人视频生成框架：MuseV MuseV是由腾讯音乐娱乐的天琴实验室开源，MuseV专注于生成高质量的虚拟人视频和口型同步，能够制作出具有高度一致性和自然表情的长视频内容

MuseV 视频数字人框架

Sora物理悖谬的几何解释

所示，Sora的训练集为短视频集，每个样本是一个短视频，同类的短视频构成一个数据流形。

Sora 解释

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

微软最强全自动数据可视化工具！现已开源

8.14，微软开源了之前已经发布的全自动数据可视化工具 LIDA。

大模型

一文搞懂贝叶斯定理有什么用

在统计学里，长期以来，有频率学派和贝叶斯学派两大学派，他们互相鄙视对方，就像华山派的气宗与剑宗之争。

贝叶斯定理

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

目前，视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。

ViTPose+Transformer 身体姿态

Stable Diffusion

Stable Diffusion｜儿童绘本全流程制作分享

上次分享了一个将小说转化为视频的全过程的教程。

StableDiffusion 绘本

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

2、独特的音频处理三步法音频标记化（Audio tokenization）使用 WavTokenizer 对音频进行处理，每秒可处理 75 个标记

OuteTTS-0.1-350M 音频

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1