文章列表-AI魔法学院

文章列表

被高估的Pika，被低估的多模态AI

“如果未来 Transformer 或者另外一套算法能够准确预测下一帧，那么视频模型就出来，就有机会解锁下一个抖音级别的内容平台；如果能准确预测下一串动作序列，那么具身智能模型就出来了

大模型多模态

最详细的文本分块(Chunking)方法——可以直接影响基于LLM应用效果

例如，sentence-transformer~[1]~模型在单个句子上工作得很好，但像text- embedt-ada -002~[2]~这样的模型在包含256或512个tokens的块上表现得更好。

RAG 大模型

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

所谓GPT，即生成式预训练Transformer模型，是ChatGPT和大多数其他生成式人工智能产品的基石。

Scaling Law AI大模型

开源大模型部署及推理所需显卡成本必读：也看大模型参数与显卡大小的大致映射策略

meta-llama/Llama-2-13b-hf meta-llama/Llama-2-70b-hf 输入：仅输入文本输出：仅生成文本模型架构：Llama 2 是一种使用优化的 Transformer

开源模型

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

8x7B 模型只是在 Transformer 的前馈 (FeedForward) 块数量上增加了八倍，并且共享了注意力机制 (attention) 的参数，使得总参数数维持在 467 亿。

开源模型 Mixtral 8x7B

个人从零预训练1B LLM心路历程

最开始应群友建议，我尝试了下训练recurrent gemma结构的模型，只不过它的pytorch实现训练效率太差了，和训transformer结构相比慢了几十倍，遂放弃，gemma是google

LLM 训练

一位芯片投资人的十年复盘：谁是中国的英伟达｜AI光年

nbsp; 前阵子美国 AI 芯片公司 Groq发布了新的芯片，国内很多AI芯片公司也已经在规划设计，如何更好的支持transformer

AI光年芯片投资

最新最全的开源中文大语言模型列表

它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。

大模型

基于大模型（LLM）的Agent 应用开发

Transformers Agent：Transformers Agent 是一个建立在Transformer存储库上的实验性自然语言API。

大模型 Agent

一个充满多智能体的数字社会正在浮现，商业的底层逻辑已进入重构倒计时

关键词：GPT-in-the-loop，LLM-in-the-loop，多智能体系统（MAS），自适应，Generative pre-trained transformer（GPT）。

大模型

RLHF 在 Text2SQL 领域中的探索

· 之前听一个大学教授的讲座，有个观点很有意思：Open AI 做大模型为什么比谷歌强，因为包括 transformer 在内的一些创新模型大多是谷歌研究的，那为什么 Open

Text2SQL RLHF

AI领域的agent是什么意思？

它是短暂且有限的，因为它受到Transformer的上下文窗口长度的限制。

大模型

一文带你认识ELMo

缺点使用LSTM提取特征，而LSTM提取特征的能力弱于Transformer 使用向量拼接方式融合上下文特征，这种方式获取的上下文信息效果不如想象中好训练时间长，这也是RNN的本质导致的

embedding

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

当今AI领域大多数主要技术都源20世纪50年代的基础研究，并结合了一些工程解决方案，如「反向传播算法」和「Transformer模型」。

OpenAI 大模型

2万字大模型调研：横向对比文心一言、百川、Minimax、通义千问、讯飞星火、ChatGPT

随着数据的不断积累和计算能力的提升，深度学习模型逐渐从传统的神经网络演变为更复杂的结构，如卷积神经网络（CNN）、循环神经网络（RNN）和Transformer等。

大模型调研

<...5 6 7 8 9 10 111213 14 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1