文章列表-AI魔法学院

文章列表

爆火的“女孩的一生”，plus版教程它来了

嘿，动画和视频制作的小伙伴们，今天我们来聊聊怎样用animatediff和LCM（Lower Complexity Model）来制作超炫酷的视频。

动画视频 AnimateDiff

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

使用 Wunjo AI 解锁神经网络无与伦比的功能。

AI语音克隆实时语音识别

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。

语音 HeyGen

Stable Diffusion

Stable Diffusion真实人物转卡通证件照（2.0版）

反向tag： bad-hands-5 ,EasyNegativeV2 ,ng_deepnegative_v1_75t ,bad-image-v2-39000 CLIP 终止层数：2 正向提示词：

Stable Diffusion 文生图

AI绘画Stable-Diffusion风格化实战

这些有趣的风格化效果其实都是图像风格化技术的应用成果。

Stable-Diffusion 文生图

十大开源语音识别项目

这些项目不仅在语音技术领域具有重要意义，而且为语音识别应用的发展提供了有力的支持。

语音识别开源项目

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

首先要转二次元得有二次元大模型，其次要反推之前真人照片的提示词，要到图生图里去做，效果好一点。

Stable Diffusion 文生图 controlnet

国内厂商语音识别与Whisper评测：现状与概况对比

语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。

语音识别 Faster-Whisper

2024！深入了解大语言模型（LLM）微调方法（总结）

其中，大模型微调技术在此过程中起到了非常关键的作用，它提升了模型的生成效率和适应性，使其能够在多样化的应用场景中发挥更大的价值。

大模型微调

Yann LeCun杨立昆最新观点：AGI不存在

以下是他讨论的LLM的一些局限性： -- LLM 是自回归的，这意味着它们根据前面的单词预测序列中的下一个单词。

AGI 大语言模型观点

华为盘古画画3.0发布 | PanGu-Draw：业界最大的中文文生图模型，效果YYDS！

另一方面，由于图像分辨率和潜在空间嵌入结构不兼容，现有的扩散模型(每个模型专门用于不同的控制并在独特的潜在空间中运行)的集成带来了挑战，阻碍了它们的联合使用。

PanGu-Draw 文生图

Stable Diffusion

造梦师手记：全网下载量第一的Stable Diffusion模型更新到5.0版

引用炼丹群一个小姐姐的评价：它无所不能。

Stable Diffusion

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

此 SDK 当前处于开发者预览模式，尚未准备好用于生产。

voice agent 开源音视频

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

这种灵活的集成方式，让应用能够更智能地响应用户需求。

GPT-4o 语音交互

Stable Diffusion

Stable Diffusion基础：ControlNet之图片高仿

下面开始生成：首先是选择一个大模型，这里使用的是和上面生成图片相同的模型：realisticVisionV20；然后我们填写一些简单的提示词，以免出现一些不太方便的图

文生图

<...61 62 63 646566 67 68 69 70 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1