文章列表-AI魔法学院

文章列表

省钱！微软开源框架LLMLingua + LlamaIndex实现提示词压缩

llama_index.callbacks import CallbackManager, TokenCountingHandler import tiktoken OPENAI_MODEL_NAME = "gpt

LLMLingua LlamaIndex 开源框架

RAG检索增强技术在知识库智能检索场景下的应用实践

这个编码模型可以是预训练的语言模型，例如BERT、GPT等。

知识库 RAG检索增强

Chinese-LLM开源中文大语言模型合集

地址：https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila 简介：由智源研究院发布，Aquila语言大模型在技术上继承了GPT

大模型中文

大模型应用的10种架构模式

更大的模型（如GPT-4）负责理解上下文，并将其分解为特定的任务或信息请求，这些任务或信息请求被传递给更小的代理。

大模型架构

如何使用ChatGPT一天搞定论文初稿

在GPT刚刚问世的时候，因为它的胡编特性导致在学术写作场景中备受诟病，但是随着现在整个生态的发展，借助插件等知识增强手段已经很大程度上解决幻觉问题，基本上确保了每个引用都有出处

ChatGPT 写作

自己电脑上跑大语言模型（LLM）要多少内存？

NVIDIA GTX GPT主要用的就是显存。

大语言模型运行

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

针对目前几乎没有公开语音多模态指令数据这一问题，基于公开数据集 WizardLM [9]、ShareGPT [10]、GPT-4-LLM [11] 构造语音 - 文本多模态指令数据集 LLaSM-Audio-Instructions

开源模型

国外报告90%的AI类产品公司已经实现盈利，而国内大模型和AIGC的访谈说太卷了

名的产品从模型的使用上可以分为三种： 1.训练自己的专有模型， 2.微调现有模型， 3.在现有模型之上构建消费者 UI（例如，“GPT

大模型

被时代选中的智谱 AI：成为 OpenAI，超越 OpenAI

GPT-3 的发布给了大家非常明确的信号，即大型模型真正具备了实际可用性。

智谱 AI

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

模型结构上，与GPT相同，LLaMA采用了causal decoder-only的transformer模型结构。

大模型

清华智能体「XAgent」比ChatGPT4.0还好用！

但在各项基准测试下，XAgent表现都完全优于AutoGPT、GPT-4。

ChatGPT 智能体 Agent

领域大模型LLM训练Trick

不过GPT系列大模型的预训练和微调，从实现方式上来讲是没有什么差别的，都是用decoder only的语言模型进行训练并更新参数，如果样本数量比较少，没有大量的篇章文档数据，个人认为只进行微调也能够注入知识

垂直训练大模型

Stable Diffusion

AI绘画巅峰对决：Stable Diffusion 3与DALL·E 3原理深度比较

DALL-E 3 用Dataset Recaptioning技术，重新生成图像标题，这些训练语料都是由GPT-4 Vision生成的。

Stable Diffusion DALL·E

baichuan2 有什么好的深挖论文中涉及的知识点

语言模型的规模已经从数百万参数（如 ELMo、GPT-1）增长到了数十亿甚至数千亿参数，例如 GPT-3、PaLM 和 Switch Transformers。

大模型

深入探秘：百川7B大模型的训练代码解析，揭秘巨无霸语言模型背后的奥秘

并处理得到最后一层的输出四：DecoderLayer类下面看一下每一层的decoder的结构是什么：这个结构可以参考经典的tansformer decoder结构，这个也是GPT

大模型

<...18 19 20 212223 24 25 26 27 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1