文章列表-AI魔法学院

文章列表

大模型是怎么“用工具”的：一文讲透 Function Calling 策略

只有经过结构化函数调用数据训练/微调的大模型才能做到： ·阅读工具描述 ·匹配用户意图 ·自主生成 JSON 函数调用格式 ·执行结果后再续写内容代表模型:GPT-4、Claude 3、qwen-plus

Function Calling 大模型

个人从零预训练1B LLM心路历程

不过即使我在预训练里加了这部分数据，效果也是大概率比不过在qwen、llama这种大机构发布的模型基础上进行微调的。

LLM 训练

阿里云王坚：中国AI不惧R2迟发！靠「群体智能」破局：算力不是瓶颈，但AI应用层急需炸开OpenAI想象围墙！不看好硅谷抢人乱象

比如说DeepSeek在某方面推进得很快，然后我们还有Qwen（通义），还有Kimi（月之暗面）等等，大家共同努力，就能形成很快的迭代。

阿里云 AI

大模型评测新思路：弱智吧精华问题大全

., 2024）和 Qwen-72B（Bai et al., 2023）模型进行了微调，以分析数据源对模型跨领域知识能力的影响，并使用 Belle-Eval 上基于模型（即 GPT-4）的自动评估来评估每个模型在各种任务上的性能

弱智吧训练数据集

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

7b-qlora-colorist --prompt-template colorist Llama "联网" -- 更可靠及时的回答借助 XTuner 及插件开源数据集，我们还解锁了 Llama 2、QWen

大模型

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型，在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus

XVERSE-V 多模态大模型

MindChat心理大模型

MindChat-InternLM-7B ModelScope / HuggingFace / OpenXLab MindChat-Qwen

心理大模型

玩一玩ChatGLM3，1660s即可流畅运行！

我之前介绍过的千问（Qwen）和百川（baichuan）运行要求就是8G+显存。

大模型 ChatGLM

领域大模型-训练Trick&落地思考

而以目前各厂（ChatGLM、BaiChuan、Qwen、Llama）抢占开源社区占比的架势，感觉会有很多7B、13B级别模型开源。

垂直训练大模型

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

而国产模型中阿里巴巴的千问大模型Qwen-7B和智谱AI的ChatGLM-12B也进入了前10，分别是第九和第十。

大模型

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

基础语言模型Qwen 2.5 - 0.5b - instruct负责处理文本输入，它具备丰富的语义理解能力，能够对输入的文本进行深入分析。

OmniVision -968M 多模态模型

Falcon 180B 开源影响了谁？

-13B-Chat与其4bit量化版本；智源的悟道3.0中的悟道・天鹰大语言模型；智谱AI的ChatGLM-6B 和 ChatGLM2-6B；面壁智能的CPM-Bee 10B；通义千问的Qwen

大模型

回望做大模型一年后的感悟

大模型应该分为两类，一类是从头开始训练的基础模型，比如：Yi、QWen、Baichuan、ChatGLM、DeepSeek等等；另一类是continue pretraining和sft类别的模型。

大模型感悟

Rerank——RAG中百尺竿头更进一步的神器，从原理到解决方案

我们还是坚持用国产大模型（如Baichuan2-13B、ChatGLM3-6B和QWen-14B等），毕竟主要服务的还是国内客户，加上现在接触的多数客户其实都有私有化部署的需求。

RAG 检索增强

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

其中在 OpenCompass 榜单中，综合 11 个主流评测基准的结果表明，MiniCPM-V 2.0 的通用多模态能力超越了 Qwen-VL-Chat-10B、CogVLM-Chat

MiniCPM 大模型

<1 234 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1