文章列表-AI魔法学院

文章列表

最强开源数字人对口型系统介绍

Easy-Wav2Lip: 仓库地址： https://github.com/anothermartz/Easy-Wav2Lip/ 说他最强，指的是跟同类开源方法做对比，对口型时候无需额外训练

数字人开源模型

检索增强生成(RAG)有什么好的优化方案

图1 RAG工作流程（with memory）从RAG的工作流程看，能优化的模块有：文档块切分、文本嵌入模型、提示工程优化、大模型迭代。

RAG 检索增强生成

对于AI，我们现阶段可以有的态度

包括AI绘画也一样，会用会玩，图个新鲜有趣，自然很容易就能上手使用；但如果要想做到可以落地商用的程度，就需要你投入相对应的时间成本来深入学习和熟练掌握了。

文生图

冲击传统模特，商汤发布高质量虚拟试衣Diffusion模型

在训练过程中，由于无法获得同一人穿着不同衣服的数据对，因此使用从图像中提取的与衣服无关的图像和目标人物衣服的模板图像来重建图像。

文生图

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

不需要复杂的设计如持续时间模型、文本编码器和音素对齐，能够快速训练并实现实时因素（RTF）0.15的推理速度，显著优于当前基于扩散的TTS模型。

F5-TTS 音频克隆

教小朋友学习AI绘画的同时避免生成不健康图片

像Stable Diffsion这种开源软件，自己用的时候，经常会有意无意的生成NSFW（简单翻译是工作时间不宜点开，主要是涩涩图），但很多中小平台也在使用该软件，如果出现不健康图片，怕是要关停网站了，

小朋友绘画

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

创始人Gaurav Misra来自印度新德里，曾是Snap的设计工程主管。

AI

改进召回（Retrieval）和引入重排（Reranking）提升RAG架构下的LLM应用效果

如前文LLM应用架构之检索增强（RAG）的缘起与架构介绍，RAG架构很好的解决了当前大模型Prompt learning过程中context window限制等问题，整体架构简明清晰，易于实现，得到了广泛的应用

大模型

Stable Diffusion

Meta发布业界最强文生图模型CM3Leon，实力碾压Stable Diffusion、Midjourney

CM3leon是第一个使用从纯文本语言模型改编的方法进行训练的多模态模型，包括大规模检索增强预训练阶段和第二个多任务监督微调(SFT)阶段。

文生图

Comfy肖像大师非常推荐

ComfyUI Portrait Master 是一个用于生成人物肖像提示词的模块，旨在优化肖像生成过程。

comfyui 文生图

【AI绘画】入门英文名词解析

编译后直接使用的工具软件（例如：Office软件、WinRAR压缩软件等等）可以安装使用，断网也不受影响但只有程序没有代码并不能学习到如何实现的除了使用软件本身带的扩展接口外进行编程开发

文生图 AI绘画

3 个令人惊艳的 GitHub 开源项目，诞生了！

用户将自己的个人头像上传后，可借助 Stable Diffusion 模型进行训练，并生成一款拥有不同风格的个人头像。

开源模型

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

Sora采用Diffusion Transformer (DiT)架构进行训练。

视频生成 sora

EduChat：教育行业垂直领域大模型

第二个挑战：教育领域的知识在不断更新，而LLMs由于训练机制无法学习到最新的知识。

教育大模型垂直领域

手把手带你微调一个自己的 ChatGLM2-6B 模型

ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、

ChatGLM2-6B

<...40 41 42 434445 46 47 48 49 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1