文章列表-AI魔法学院

文章列表

大语言模型的拐杖——RLHF基于人类反馈的强化学习

模型学习根据给定的输入预测正确的动作或输出。

大模型训练

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

Kandinsky 2.2和DALL-E 2一样采用两阶段生成方案：第一阶段采用一个prior模型基于文本生成图像的CLIP image embedding，第二阶段使用CLIP image embedding作为条件生成图像

Kandinsky-3 文生图开源模型

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

在论文记录超参数的表 2.1 中有一个可能的拼写错误，其中 GPT-3 13B 被记作为具有 5140 的嵌入维度，这里应该是 5120。

Transformer

中文常用停用词表下载

概念介绍想象一下，我们在写一篇文章或者说话的时候，有些词虽然很重要，但是它们出现得太频繁了，以至于我们不太注意它们。

训练停用词

Stable Diffusion

Stable Diffusion 30种采样器全解

没有多步算法加持生成图像较慢，可以生成逼真的写实风格画面。

Stable Diffusion 采样器

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

其实学到现在绝大多数的Stable Diffusion使用技巧已经学了很多了，需要的还是自己不断地去研究学习，当然我也会不断学习否则我就不知道文章要写啥了。

SDXL-Turbo 文生图

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

将两个主角的声音单独提取出来，随后依次进行背景音和前景音的分离，声音降噪以及声音切片等操作，这些步骤之前已经做过详细介绍，请参见：民谣女神唱流行，基于AI人工智能so-vits库训练自己的音色模型(叶蓓

Bert-vits 语音

RAG模型的主要痛点和解决方案

- 大型语言模型的作用：大型语言模型提供了增加幻觉风险的强大先验。

rag 大模型

Fastwhisper + Pyannote 实现 ASR + 说话者识别

官方仓库：https://github.com/SYSTRAN/faster-whisper 二、pyannote.audio介绍 pyannote.audio是一个用Python编写的用于扬声器

faster-whisper 语者识别 ASR

LlamaIndex的QueryPipeline在实现RAG应用后，Agent应用也可以实现了（附开发示例）

整个执行过程分为四步： a）获取Agent输入b）利用ReAct Prompt 调用 LLM 生成下一个操作/工具（或返回响应）。

Agent QueryPipeline 大模型

AI落地里那些假的机会

它确实可以作为一个核心的新体验的支撑，但不同的场景对所谓可用的划线是不一样的。

大模型

SDXL Styles：七十七种绘画风格任你选择

提示词只有很简单的：a girl,moutain,sea,trees 在生成图片的下方，我们可以看到生成图片的参数，其中提示词和反向提示词都被注入了一些东西，如下图所示：我们把这个提示词和反向提示词填写到

文生图

来自Microsoft Build 2023：大语言模型是如何被训练出来的

OpenAI的创始成员在OpenAI工作了2年，然后又去特斯拉工作了5年，2022年又回到了OpenAI。

大模型

7.1k Star！RAGFlow：最新开源OCR+深度文档理解的RAG引擎、大海捞针测试、降低幻觉、服务化API集成进业务！

简单来说，RAG的工作就是作为一个信息的搜集者和整合者，帮助LLM更好地理解和回应提问。

OCR RAG 开源

手把手带你微调一个自己的 ChatGLM2-6B 模型

o o • 更开放的协议：ChatGLM2-6B 权重对学术研究完全开放，在填写问卷进行登记后亦允许免费商业使用。

ChatGLM2-6B

<...70 71 72 737475 76 77 78 79 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1