文章列表-AI魔法学院

文章列表

图片生成速度最高提升10倍！可以做到“实时”生成！清华推出LCM/LCM-LoRA！

LCM的训练过程也很高效，只需要大约32个A100 GPU的训练时间，就可以完成对SD模型的蒸馏。

LCM/LCM-LoRA 文生图

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

点评：六大向量数据库

AI研究院，推出的各种模块库构架图，为国内众多AI初创企业，快速掌握各种AI模块库底层核心算法，提供了一个超级神器。

向量数据库

大模型能力评估体系

据中国科学技术信息研究所的数据，国内具有超过10亿参数规模的模型已达79个，标志着一场规模宏大的“百模大战”。

大模型评估

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

目前，在隐空间编/解码上，主流的视频生成模型通常沿用Stable Diffusion的2D VAE进行空间压缩，但这对于视频而言存在明显的信息冗余。

可灵快手文生视频

ReplaceAnything：阿里最新项目！重绘图片里的任何元素，商用价值极高！用最简单的部署创造最大的价值！

摘要 ReplaceAnything是阿里团队即将开源的项目，针对图像里的人物替换、服装替换、背景替换等方面做了极大的优化，使用户上传图片可以指定部分区域生成新内容，并且做到了严格保留遮挡区域，这对AIGC

ReplaceAnything 文生图

Suno音乐新手指南（手把手完整版教程）

v3有所改进，但还是存在这个现象。

suno 歌曲教程

金融行业中 Fintech 的应用场景

20231123154831 以这个场景为例，财经新闻的内容通过文字的方式去提取关键词，提取关键词代表内容的一些抽象概念。

Fintech 金融

【AI代理】扣子，开始探索多代理模式

代理模式不仅可以拓展大模型的功能（比如给大模型加上网页搜索，加入知识库等），还可以规避大模型的弱点（比如需求是一段代码，但是大模型回复的内容不单单包含代码，还有一些解释语句）。

多代理模式大模型

Stable Diffusion

SD入门教程一：Stable Diffusion 基础（技术篇）

所有图片都存在了一张充满噪点的图片里，AI 只是把不要的部分去掉了。

Stable Diffusion 文生图

大模型套壳祛魅：质疑套壳，理解套壳

为了厘清大模型套壳的逻辑，「甲子光年」访谈了一些AI从业者、投资人，结合 OpenAI、Meta 以及国内大模型相关技术论文，从一个大模型的「炼丹」过程入手，看看在哪些步骤、哪些环节，存在套壳的空间。

大模型套壳

AI虚拟主播数字人技术实现Wav2Lip

主要通过将两个不相关的人的视频、音频，采用Wav2Lip技术，最终得到一个完整的视频文件，且视频的人物口型与音频内容一致。

数字人视频

Yi技术报告细节分享

因此，下面分享内容主要为预训练、微调、长文本能力以及模型深度扩展。

Yi模型大模型

Mokker，想取代商业棚拍效果的场景生成AI

有别于其他的生成式工具，Mokker有她特别用心和擅长的地方，专注帮你更换合适的商品场景，如果有一张产品图了，那么可以通过Mokker的摄影道具，添加自己想要的道具模型到场景中，然后靠谱的AI就会生成一张融合产品在内的准确场景

Mokker 图生图

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

SenseVoice模型具有的功能特点：多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。

asr tts 声音

<...19 20 21 222324 25 26 27 28 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1