文章列表-AI魔法学院

文章列表

17K star！30秒偷走你的声音，开源声音克隆工具

然后，它可以生成听起来自然的语音，以多种语言模仿该语音，同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

OpenVoice 声音克隆开源

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

AI能够制作视频吗？

AI资讯 AI新闻

在 WebUI 中使用 AnimateDiff 的一些问题和技巧

这两天晚上没事的时候就会尝试下AnimateDiff，发现这真的让视频生成上了一个大台阶，估计是到了AI视频爆发的前夜了。

AnimateDiff SD

营销Prompt：三分钟生成百篇营销文案，领先99%的同行！

今天我们就来聊聊在企业营销经营中，我们会用到的那些Prompt，以帮助你在营销中，领先99%的同行。

写作营销 prompt

Stable Diffusion

Stable Diffusion | SD腾讯云3步部署，全程五分钟，附价格费用清单

昨天分享的阿里云部署SD，得到不少朋友的关注，那不得不看看腾讯云部署了，流程和界面几乎都是一样的，逻辑是一样，唯一不同的是，腾讯云云盘没有试用，需要自己购买。

下载开源模型

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

Sora物理悖谬的几何解释

所示，Sora的训练集为短视频集，每个样本是一个短视频，同类的短视频构成一个数据流形。

Sora 解释

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

（先别急着骂，我们先看看产品）你是否遇到过这样的情况：你想和一个说不同语言的人交流，但是你不会他的语言！

大模型开源模型语音

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

写一篇关于Vision Pro VR眼镜的20字宣传文案，并用女声读出来，同时生成个视频看看。

大模型

【提前体验GPT-5】吴恩达AI智能体工作流详细解读

当时他只是文本简单介绍了一下，现在他在斯坦福大学对此内容的演讲视频已经发布。

GPT-5 智能体

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

首先从数据开始：如果你想克隆一个人的声音，你可以找到一段这个人的演讲录音，或者视频，当然不同资源需要不同的处理如果是视频，可以使用人声分离，如下图，点击这个就会弹出

数字人声音克隆 GPT-SoVITS

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1