文章列表-AI魔法学院

文章列表

精通结构化提示词：如何精确操控指令的作用域与优先级

如果结构化提示词出现了不同模块之间的逻辑错误或规则冲突，对于用自然语言沟通的大模型来说，生成的结果反而不可控。

提示词结构化

Stable Diffusion

stable diffusion API 调用，超级详细代码示例和说明

接口文档可以查看： http://sd-webui.test.cn/docs 这里的 sd-webui.test.cn 是自己的 sd webui Endpoint。

文生图工作图生图

6个最佳开源TTS引擎

产品特点： · 由于它基于FLITE技术，您可以自定义语音的声音。

TTS引擎开源模型

14.6K star！最好用的OCR文字识别项目，没有之一！

自定义识别内容这个功能是Umi-OCR的一大亮点，可以指定识别的内容区域，或者屏蔽掉不需要识别的区域。

Umi-OCR 开源项目文字识别

用ComfyUI整了一套照片转Q版手办的工作流

然后就跟着B站教程做一个图片转Q版的功能，选择这个是因为看到有个设计师拿了一本笔记本就去白地摊然后生成各种风格的照片，打印出来给游客，然后自己也想搞一搞。

comfyui 文生图

Stable Diffusion

Stable Diffusion 5款最佳电商必备模型、Lora推荐

plants,water surface,water ripples,still life,natural light,shadow,lights,simple background, 自然美妆场景

SD 电商文生图

OCR是什么以及推荐几款开源中文OCR识别软件

后面做背书的公司非常强（baidu）相关的中文文档非常齐全识别的精确度比较高安装和教程详细支持前沿算法和标注工具劣势目前使用的训练模型是基于百度公司自己的

OCR

最佳开源文生图大模型可图：安装与批量出图的完整教程

如果不确定自己各个组件的版本，可以通过pip list来查看。

可图 kolors

HAI-Chat：高效且轻量的一键式 RLHF 训练工具

利用 HAI-Chat 自定义 PPO 的训练 HAI-Chat 提供了简单易用的接口，用户只需设置自定义的 tokenizer 和 RLHF 训练配置（cfg），即可构建自己的 PPO

HAI-Chat RLHF

腾讯最新的人像写真工作PhotoMaker

由于用于原始clip的数据大部分是自然图像，为了更好地提取脸部特征，对这部分模型参数进行了微调。

PhotoMaker 文生图

基于 OpenAI Whisper 模型的实时语音转文字工具

高度可定制性：WhisperLive 允许通过编写插件和脚本语言来自定义其功能和界面，以适应不同的音乐制作和声音设计需求。

WhisperLive 音频开源软件

技术布道 | Prompt评估与优化，让魔法打败魔法，通过大模型获得更优质的Prompt进而获得更优质的内容

可以看到如下图所示的评估内容，包括2个场景和2个Prompt，当然我们也可以自定义增加Prompt。

prompt 大模型

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

它们建立在冻结的 Chinchilla 模型上，80B 参数来自添加到 70B Chinchilla 模型中的交叉注意力层。

Transformer

LLM应用架构之检索增强（RAG）的缘起与架构介绍

而小花，是一个善于思考总结，勤于钻研的孩子，她会从猫和狗各自具有的形态和特征入手，总结什么样的样子是一只猫，什么样是一只狗。

LLM

开箱即用的图像增强、视频增强AI工具，Upscapl、Topaz Video AI

Upscapl还具有一些其他的功能，比如支持自定义图片处理AI模型、支持输出WebP格式和批处理等。

图像增强视频增强

<...84 85 86 878889 90 91 92 93 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1