文章列表-AI魔法学院

文章列表

实时语音克隆

SV2TTS使用深度学习框架，分为三个阶段，通过音频创建声音的数字表示，然后用这个表示来合成任意文本的语音。

语音克隆

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

升级后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。　　

文生图混元腾讯

Stable Diffusion

Stable Diffusion 快速创作角色三视图

天分享分享如何通过 Stable Diffusion 快速创造出角色三视图。

SD 三视图文生图

AI写作：一步到位，如何用 AI 生成整篇文章？做自媒体必看！

一、短内容如果要写的内容比较简短，比如小红书文案、短视频稿。

结构化提示词写作

Stable Diffusion

Stable Diffusion | SD阿里云3步部署，全程五分钟，免费试用三个月，电脑无需升级配置

别看到阿里云之类的就感觉陌生，敬而远之，其实也没有那么复杂，三步就完事了，这里就来拆解一下。

下载

AI拟声: 5秒内克隆您的声音

这种独特的能力使得MockingBird在许多不同的领域中具有广泛的应用场景。

声音克隆开源

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

AI声音克隆 | 最全最简教程（权威版）

，但是要收费的哈但这些都不能指定声音转换，所以这里使用声音克隆，来将指定人声训练成模型，然后文字转音频。

声音克隆教程

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Sadtalker是一个能够根据图片和音频生成视频的开源项目，它使用了一种叫做SadNet的神经网络，可以实现风格化的单图说话人脸动画。

数字人

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

多模态模型提供了不同模态之间信息交互的渠道，使得视觉信息、语音信息等能和文本语义信息互为补充，让大语言模型能听到世界、看到世界，从而向 GI 又前进一步。

开源模型

Ollama最新更新v0.1.33，实现了多并发可同时与多个模型聊天对话！

现在，多用户可以在同一台宿主机上与LLMs进行互动，实现同时聊天对话。

ollama 语言大模型聊天

解读wav2lip：探究语音驱动唇部动作的技术原理！

，通常无法准确地合成口型，导致生成的视频与音频不同步，主要原因包括两方面：（1）传统的基于像素的人脸重建损失无法准约束音频-口型同步：因为面部重建损失是基于整个图像计算的，而唇部区域只占整个图像的很小一部分

wav2lip 语音

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

虽Suno V3在音乐创作领域实实在在地亮眼，但AI在音乐行业应用仍处起步阶段。

suno 歌曲音乐

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

ensp; · 各大国产模型在不同评测基准上的表现

大模型

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

这款软件以其独特的优势和无限的可能性，为艺术家、设计师乃至广大创意爱好者提供了前所未有的视觉表达工具。

SD 视频课程 AI绘画

<...6 7 8 91011 12 13 14 15 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1