文章列表-AI魔法学院

文章列表

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

Stable Diffusion

Stable Diffusion 快速创作角色三视图

天分享分享如何通过 Stable Diffusion 快速创造出角色三视图。

SD 三视图文生图

ChatGPT Prompt提示词课程（斯坦福吴恩达 | OpenAl）指南篇极简笔记

对于大模型prompt的设计，近期斯坦福吴恩达伙同OpenAl出了一套视频教程（B站地址：https://www.bilibili.com/video/BV1AT41187qt?

prompt 大模型

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Sadtalker是一个能够根据图片和音频生成视频的开源项目，它使用了一种叫做SadNet的神经网络，可以实现风格化的单图说话人脸动画。

数字人

解读wav2lip：探究语音驱动唇部动作的技术原理！

而且由于生成过程中存在伪影，GAN判别器更容易关注视觉伪影，从而忽略音频和口型的对应关系。

wav2lip 语音

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

AI拟声: 5秒内克隆您的声音

音频剪辑和制作：对于音频制作人员来说，MockingBird也是一个强大的工具。

声音克隆开源

AI声音克隆 | 最全最简教程（权威版）

，但是要收费的哈但这些都不能指定声音转换，所以这里使用声音克隆，来将指定人声训练成模型，然后文字转音频。

声音克隆教程

语音识别的新拐点：OLMoASR 带来的机会

ASR，全称 Automatic Speech Recognition（自动语音识别），就是让机器“听懂你说话”，并把语音转换成文字。

OLMoASR 语音识别

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

目前AIgc领域正在持续关注，等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破

Stable Diffusion 文生图 controlnet

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

这款软件以其独特的优势和无限的可能性，为艺术家、设计师乃至广大创意爱好者提供了前所未有的视觉表达工具。

SD 视频课程 AI绘画

在 WebUI 中使用 AnimateDiff 的一些问题和技巧

这两天晚上没事的时候就会尝试下AnimateDiff，发现这真的让视频生成上了一个大台阶，估计是到了AI视频爆发的前夜了。

AnimateDiff SD

腾讯出品！开源AI数字人框架！号称可以不限时长

今天，介绍一个开源创新的虚拟人视频生成框架：MuseV MuseV是由腾讯音乐娱乐的天琴实验室开源，MuseV专注于生成高质量的虚拟人视频和口型同步，能够制作出具有高度一致性和自然表情的长视频内容

MuseV 视频数字人框架

用so-vits-svc-4.1进行音色转换的极简教程

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

声音 sovits

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1