文章列表-AI魔法学院

文章列表

Stable Diffusion

Stable Diffusion 文生图全网最细详解

并不是越高越好来看看效果会发现步数到了60其实也还好，但同时需要考虑到性价比，步数越高也就意味着耗费的资源会越多，对机器的配置会更高。

文生图 SD

大规模训练系列之技术挑战

P：模型参数量，单位为Billion 当优化器是SGD时，占用大小为： MS_FP16 = 2P(FP16参数)+2P（FP16梯度）+8P(FP32的参数、动量) = **12P*

开源模型

用ChatGPT快速完成论文全流程

（比如，特定AI工具提高了学生的互动和满意度）以及研究的意义（对教育者和技术开发者如何利用AI改善教育质量的建议）。

ChatGPT 写作

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

自 ChatGPT 发布以来，大模型的强大让人们看见了通用人工智能的曙光，各个科技大厂也纷纷开源自家的大语言模型。

大模型

RAT = CoT + RAG

Retrieval Augmented Thoughts (RAT) 是一种协同思维链 (CoT) 和检索增强生成 (RAG) 的 AI 提示策略，助力解决具有挑战性的长任务推理和生成。

RAT 协同思维链检索增强生成

再见了ComfyUI，WebUI也有了工作流

在AI绘画领域，Stable Diffsion是最受欢迎的，因为它是开源软件。

ComfyUI WebUI 文生图

LangChain + ChatGLM2-6B 搭建私域专属知识库

ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（

知识库

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

但是近期，网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice，刚上线仅一周时间就暴涨4200颗星，问鼎当周GitHub trending流行榜第一。

EmotiVoice 语音库

中文开源OCR框架对比及介绍

金钱成本则基本没有（除了电费），如果大批量的跑字符识别可能需要搭建GPU服务器，这个花费就因人而异了。

OCR

一键部署本地“妙鸭”，证件照，写真照，模特换装全部搞定！

去年年初，一款很火的AI写真软件“妙鸭”横空出世，消费者仅仅只需几张照片就能给自己拍摄出各式各样的证件照、写真照，简直太神奇了。

妙鸭文生图

【一步一步引导】从零详细地梳理一个完整的 LLM 训练流程

1.预训练阶段（Pretraining Stage）工欲善其事，必先利其器。

大模型训练

最佳开源文生图大模型可图：安装与批量出图的完整教程

在机器测评上，Kolors 获得了最高的 MPS 分数，这与人工评估的结果一致。

可图 kolors

解读wav2lip：探究语音驱动唇部动作的技术原理！

实验发现，相较于基于像素的人脸重建方法，这个专家判别器在口型同步判别任务上更精准。

wav2lip 语音

必读！RAG好用的3种Router

MoE架构包含一组专家模型，这些模型被训练以专门处理不同的数据区域，同时还有一个门控网络模型，负责确定每个专家对最终预测的贡献 · LM路由方法可以视为MoE架构的一种特殊情况，其中预测路由模型充当门控机制

RAG Router

忘了stable diffsion的英文提示词吧，这个工具点点鼠标就可以了

如果网络不稳定可以增加代理： https://ghproxy.com/https://github.com/thisjam/sd-webui-oldsix-prompt 2、插件的使用安装成功后，重启启动器，

stable diffsion 提示词

<...74 75 76 777879 80 81 82 83 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1