文章列表-AI魔法学院

文章列表

大模型：泛化即智能，压缩即一切！

监督学习是优秀的数据海绵经过监督学习训练的深度神经网络是优秀的数据海绵——它们可以记住大量数据，并且可以通过数万批量大小的训练来快速完成这一任务。

泛化大模型

Stable Diffusion

Stable Diffusion 和 Midjourney的优劣势比较，如何选择？

③有一定的使用难度：SD的界面有很多内容，如采样方式等，上手很简单，但想玩好以及训练自己的模型等都需要比较复杂的学习过程。

文生图

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

去年11月，零一万物就正式开源发布了首款预训练大模型Yi-34B，当时的模型已经能处理200K上下文窗口，约等同于20万字文本。

零一万物 YI 李开复

FFmpeg之父新作——音频压缩工具 TSAC

Training tricks 1）GAN RVQGAN顾名思义是基于GAN的网络结果，因此在训练过程中除了训练encoder-decoder的生成器之外，还需要训练对应的判别器

TSAC 音频工具

中国电信开源星辰AI大模型：央企中首个完成LLM研发和开源的选手诞生

早在去年五月中旬，经过数十版模型训练与优化，中国电信就完成了百亿参数星辰AI大模型稳定版本的训练。

开源大模型电信

LLM应用架构之检索增强（RAG）的缘起与架构介绍

从上图可以看到，参数规模和训练的token数是正相关的，以gpt3为例，它有1750亿参数，其训练的token量达到了2000亿，据说包含了全球所有公开的文本信息，自然它能什么都懂就不奇怪了。

LLM

实时语音克隆

建议使用 GPU 来进行训练和推理速度，但这不是强制性的。

语音克隆

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

三、Westlake - Omni 的训练与优化 1.

Westlake -Omni 语音

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

确实，在 400M 图像文本对训练的 CLIP 有很强的视觉文本对齐能力，可以覆盖多数日常任务下的图像编码。

OCR 手写文字识别

Stable Diffusion

深入浅出学习Stable diffusion之线稿转效果图

的左上角我们看到秋叶包中加载的暂时只有一个anything的模型，这是一个大体模型，就是很多风格集中在一起的模型，不论是景观、建筑、动漫人物还是什么，但是当你需要出独特的风格图时候就需要更优化的模型，你可以自己训练模型

Stable Diffusion 文生图大模型

百川智能RAG方案总结：搜索出生的百川智能大模型RAG爬坑之路

行业大模型解决方案有后训练（Post-Train）和有监督微调（SFT），但是仍然无法解决大模型落地的幻觉和实效性问题。

RAG 大模型

保姆级教程：手把手教你创建GPTs角色应用

首先，向GPTs描述你的需求：创建一个能帮助理解猫咪行为、提供训练技巧和互动小知识的助手。

GPTs 教程

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

但是这些方法对于不在训练数据内的新图象，泛化性较差，或者需要输入多个图像，在近一个小时后，才能等到生成结果。

Anydoor 文生图

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

为了探索使用ImageNet数据进行预训练是否是不可避免的，ViTPose探索了能否只使用姿态估计数据（MS COCO和AI Challenger数据）进行预训练。

ViTPose+Transformer 身体姿态

从零开始学习大模型-第二章-大模型学习路线

编程基础：熟练掌握至少一种编程语言，推荐Python，因为它是数据科学和机器学习领域的主流语言。

大模型学习

<...16 17 18 192021 22 23 24 25 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1