文章列表-AI魔法学院

文章列表

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

虚拟主播：通过Fay控制器及数字人模型，开发者能够创建虚拟主播来进行直播带货或视频内容制作。

Fay 开源项目数字人

大模型微调方法总结

在输出阶段，通过第二个前馈子层还原输入维度，将 m 重新投影到 d，作为 Adapter 模块的输出(如上图右侧结构)。

开源模型

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

为了回答这两个问题，本文作者首先选择了当前主流的两个多模态模型GPT4-Vision，LLaVA ，然后手动标注了数据集和RAG系统测试集，接着作者构建了一个多模态RAG系统（两种配置），将文本和图像结合到一块

大模型研究

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

作者用一个 ID 提取器来生产有区分度的 ID token，并设计了一个以频率感知的细节提取器来获取细节图作为补充。

Anydoor 文生图

企业数字化转型的“阿里阿德涅之线”在哪？

、施肥、作业。

大模型用户

Stable Diffusion

读取大脑重建高清视频，Stable Diffusion还能这么用

但以往的研究都主要聚焦在重建静态图像，而以高清视频形式来展现的工作还是较为有限。

stablediffusion

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

实际操作结果显示，此类方法可以用来解决涉及数学、常识和符号推理的相关任务。

大模型

【ComfyUI】使用ComfyUI玩SDXL的正确打开方式

虽然现在已经有很多大佬分享了自己的工作流，但我还是建议大家能自己先手搓一下，一是为了搞懂SD的工作原理；二是因为自己连的工作流出图的那一刻，这个成就感是无与伦比的。

开源模型

划重点！全网最全AI数字人工具合集！

· 选择头像：你可上传自己的照片，也可以选择平台提供的头像，同时调整其表情和动作。

AI 数字人

StableDiffusion

StableDiffusion模型推荐系列（全能型）

虽然看起来很复杂，但其实每一个模型和lora都是为了提供给我们更个性化、更定制化的创作体验。

stablediffusion sd 文生图

数字人：从科幻走向现实的技术革命

这些技术共同为数字人提供了逼真的外貌、流畅的动作以及智能化的交互能力。

数字人语音

GitHub星数暴涨，AIPC的开源实现，用AI记录电脑一整天的使用太简单了，功能非常多！

ScreenPipe 在你的计算机上 7*24小时全天候记录你的电脑屏幕和麦克风，数据由用户自行掌控，确保隐私和安全，并且把记录的数据连接到大模型，这样就可以轻松的进行搜索、并且自动化的处理一些工作。

AIPC ScreenPipe 开源

华为盘古画画3.0发布 | PanGu-Draw：业界最大的中文文生图模型，效果YYDS！

这种方法将一个综合的文本到图像模型(表示为)分成两个跨不同时间间隔操作的专门子模型:结构生成器和纹理生成器。

PanGu-Draw 文生图

ComfyUI | 这么入门就顺了，硬入疼的是自己

ComfyUI较于SD web UI没有普及的先机优势，我们在玩了一段时间web的时候，直接启动Comfy，看到Comfy的界面第一反应就被劝退了，密密麻麻的眼花缭乱，比如加载默认的这个最基础工作的版面

生成式AI

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

具体来说，使用W2v-BERT 2.0模型的第17层隐藏状态作为语音编码器的语义特征，编码器和解码器由多个ConvNext块组成。

MaskGCT 声音克隆

<...73 74 75 767778 79 80 81 82 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1