文章列表-AI魔法学院

文章列表

来自Microsoft Build 2023：大语言模型是如何被训练出来的

核心是基于transformer架构，利用大量的无标注数据来训练模型对下一个token的预测，这也是整个大模型阶段最消耗时间和算力的地方。

大模型

中学生也能看懂的Sora视频生成原理解读

通过预先训练好的转换器（Transformer模型），Sora能够识别每个补丁的内容，并根据给定的文本提示进行相应的修改。

视频生成 sora

图解检索增强式生成（RAG）技术 | 万字长文

作者设计的一个方案，以及文中接下来的所有方案基础 RAG 案例的过程大致如下：首先，将文本分割成不同的段落；接着，使用某种 Transformer 编码器模型将这些段落转换成向量；然后

检索增强式生成 RAG

高级 RAG 技术——图解概览

将文本切分成多个段落，使用 Transformer Encoder 模型将这些段落转换成向量，然后把这些向量存入一个索引里。

RAG 检索图解

本地运行140亿参数，阿里千问玩起来！Qwen+Win11+3060

Qwen-14B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。

大模型

CodeGeeX：Tab一下，代码自动生成

CodeGeeX含有40个transformer层，每层自注意力块的隐藏层维数为5120，前馈层维数为20480，总参数量为130亿。

大模型

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

最后采用架构上的调整，faster transformer 要优于传统的 transformer 架构。

大模型人工智能

国内AI大模型已近80个，哪个最有前途？

智谱早期是做知识图谱的，大模型浪潮到来之后及时转型到大模型，而且在知识图谱和大模型的结合方面采取了较为务实的路线，并未强行把知识图谱加到 Transformer 里面。

大模型

大语言模型应用中的文本分块策略

例如，sentence-transformer[1]模型在单个句子上效果很好，但像text-embedding-ada-002[2]这样的模型在包含 256 或 512 个token的块上表现更好

开源模型

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

OpenAI Sora是一种结合了Diffusion模型和Transformer模型的技术。

sora 视频生成

Mixtral 7B 官宣免费，一大波 AI 模型也免费了，有网就能用！

体验地址：https://anakin.ai/apps/nous-capybara-16451 RWKV v5 RWKV v5 3B 模型是一种免费的新型神经架构，旨在通过综合 RNN 和 Transformer

开源大模型

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

架构层面，Llama 3选择了经典的仅解码（decoder-only）式Transformer架构，采用包含128K token词汇表的分词器。

meta llama3

主流向量数据库一览

简单下个定义，因为喂给Transformer的知识首先需要做embedding，所以用于存储embedding之后数据的数据库即可称为向量数据库。

向量数据库

如何估计大模型所需要的显存大小？HuggingFace发布Model Memory Calculator，一键计算大模型显存需求

在许多深度学习模型中，尤其是Transformer类模型，层与层之间的操作往往需要在vRAM中存储中间计算结果，这些结果可能包括激活值、权重等。

大模型

Yi技术报告细节分享

模型采用Transformer-Decoder结构，采用llama的代码实现，修改如下： o 注意力机制：Yi-6B和34B版本均采用Grouped-Query Attention

Yi模型大模型

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1