文章列表-AI魔法学院

InstantID是一个强大的AI绘画工具，支持一键生成多变图片。文章提供了两种使用方法：本地一键运行包和Colab脚本在线体验。本地运行需下载解压特定压缩包，并配置显卡等硬件；在线体验则需通过Github上的TonyColab项目，在Colab平台上使用A100 GPU进行创作，无需配置，出图速度快且稳定性高。

InstantID 文生图 2024-07-15

RAG

24年首篇离奇论文：加点噪声，RAG效果翻倍？！

本文探讨了基于检索增强的语言模型（RAG）系统中信息检索组件对性能的影响。研究发现，包括不相关文档反而能提高系统准确性，强调整合检索与生成模型的重要性。通过密集检索和基于语言模型的生成器，RAG框架解决了复杂查询问题，实验表明，正确放置无关文档能提高准确率，为优化RAG系统提供了新见解。该研究为进一步发展信息检索技术以适应生成组件提供了基础。

RAG 检索论文 2024-07-15

【AI代理】扣子，开始探索多代理模式

文章总结：代理模式可增强大模型功能并规避其弱点。多代理模式则通过分配任务给多个机器人或模型，实现更精细化和准确化的处理。扣子智能体系统已上线多代理模式，并允许通过角色设定和全局跳转条件等方式优化用户体验和任务处理。多代理模式在丰富场景和精细化处理上展现出巨大潜力。

多代理模式大模型 2024-07-15

【AI代理】多代理模式之多任务分配&信息传递

文章总结了通过代理模式探索多任务分配和代理间信息传递的过程。设置了四个角色代理，包括一个总代理和三个负责不同任务的代理（刘备、关羽、张飞）。通过任务分配和代理间信息传递，模拟了群体会话场景，展示了无信息依赖和有信息依赖的多任务处理。强调了代理模式在模型差异化情况下的优势，并探讨了专用模型调优的可能性。

多任务模式分配传递 2024-07-15

大模型

最佳开源文生图大模型可图：安装与批量出图的完整教程

Kolors是快手Kolors团队开发的文本到图像生成模型，具备高质量图像、精准语义和出色的中英文文本渲染能力。其开源特性及ComfyUI插件支持，使其在图像生成领域表现突出。Kolors在专家测评中满意度和画面质量均领先，并超越了MidJourney-v6。安装Kolors需满足特定软硬件要求，并涉及多个步骤，包括源码下载、依赖安装、模型权重下载和推理测试。目前，Kolors支持中英文输入，并能生成含中文的图片。

可图 kolors 2024-07-12

Transformer

图解 Transformer——功能概览

文章简要介绍了Transformer架构在自然语言处理（NLP）领域的革命性影响。Transformer利用注意力机制显著提高了深度学习NLP模型的性能，特别是翻译模型。它改变了从序列建模的传统方法到更高效、能捕捉复杂语言模式的新框架。Transformer由编码器和解码器堆栈组成，通过自注意力和编码器-解码器注意力机制处理输入和输出序列。文章还详细解释了Transformer的训练和推理过程，包括Teacher Forcing技术，并指出了Transformer在处理长距离依赖和并行计算方面的优势，相较于RNN和CNN架构。Transformer已广泛应用于各种NLP任务，如机器翻译、文本摘要、情感分析等。

Transformer 大模型图解 2024-07-12

腾讯

为什么说腾讯22年前的这份神级PPT是立项汇报的天花板？

文章深入分析了腾讯早期一份极具价值的PPT《Avatar Business Plan》，这份PPT不仅成功推动了QQ秀业务的诞生，也展现了作者许良敏锐的市场洞察力、严谨的逻辑思考力和强大的执行力。PPT虽朴素但充满说服力，通过数据、逻辑、落地和细节的完整呈现，成为立项汇报的典范。文章还强调了成功项目背后多因素的综合作用，以及个人奋斗与历史进程的关联，进一步丰富了PPT的价值解读。

PPT 腾讯立项汇报 2024-07-12

ComfyUI

用ComfyUI整了一套照片转Q版手办的工作流

文章总结了作者年后开工计划使用ComfyUI工作流版本进行一系列创意项目，包括卡通头像、证件照、模特换装、2D转3D等。过程中遇到挑战，但最终通过使用秋叶大神的集成版和参考B站教程，成功实现了图片转Q版的功能，并分享了详细的工作流和生成结果。

comfyui 文生图 2024-07-12

大模型

中国大模型融资暗战：罗曼蒂克的快速消亡

本文概述了中国大模型创业公司之间的资本竞争和融资动态。月之暗面突然获得超10亿美元（后修正为8亿美元）融资，成为市场焦点，同时揭示了阿里在大模型投资上的积极策略。文章还对比了月之暗面与MiniMax两家公司的融资历程、背后关键人物、以及各自的商业模式和战略选择。此外，讨论了AI投资市场的整体趋势，包括风投机构的参与减少、巨头主导时代的到来、以及大模型创业公司商业化挑战等问题。最后，文章引用投资人的观点，预测了大模型公司投资回报的潜在路径和退出时点的可能性。

大模型暗战 2024-07-12

开源

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

asr tts 声音 2024-07-11

我如何夺冠新加坡首届 GPT-4 提示工程大赛 [译]

由新加坡政府科技局（GovTech）组织的首届 GPT-4 提示工程大赛冠军 Sheila Teo 写的《我是如何夺冠新加坡首届 GPT-4 提示工程大赛的》 Sheila 总结了 4 种提示词技巧

GPT-4 提示词 2024-07-11

RAG

无限长的上下文，也干不掉的RAG

本文《Lost in the Middle: How Language Models Use Long Contexts》通过实验探讨了语言模型在处理长文本上下文时的性能，发现模型性能会随着相关信息在上下文中的位置变化而显著下降，尤其是在需要从长上下文中间提取信息时。研究还探讨了模型架构、查询感知上下文化和指令微调的影响，并通过开放域问答案例研究提供了对现有语言模型使用长上下文的理解。这些发现对于未来长上下文模型的评估和改进具有重要意义。

RAG 大模型 2024-07-11

LLM

自己电脑上跑大语言模型（LLM）要多少内存？

文章总结了本地电脑上运行大型语言模型(LLM)时需要考虑的关键因素，包括模型名称解读（模型名+参数量）、模型精度（full precision、half precision等）、模型文件大小的计算（参数量与精度的关系）、内存需求（推断与训练时所需不同）、内存、显存与硬盘的使用情况，以及如何选择适合的模型。建议普通用户选择能跑的最大的4bit模型，并根据实际情况估算所需内存。

大语言模型运行 2024-07-11

Transformer

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

文章介绍了京东探索研究院与悉尼大学联合提出的基于简单视觉transformer的姿态估计模型ViTPose及其改进版本ViTPose+。ViTPose通过简单的视觉transformer编码器和解码器设计，展示了在人体、动物等姿态估计任务上的出色性能，同时验证了其在简单性、可扩展性、灵活性和可迁移性方面的优势。ViTPose+进一步通过MoE机制解决了多数据集冲突问题，并在多个姿态估计数据集上刷新了最佳性能。这些工作为基于简单视觉transformer的姿态估计研究提供了新的方向，并有望推动相关视觉任务的发展。

ViTPose+Transformer 身体姿态 2024-07-11

一旦参透「第一性原理」，便洞悉所有事的本质

文章总结：第一性原理是一种深度分析的思维方式，它要求我们跳出传统思维的框架，回到问题的最基础、最核心的部分，忽略既有的假设和“常识”，从而找到创新的解决方案。要培养第一性原理思维，需学会识别和质疑现有假设，拆解问题到最基本的元素，并从根本上重新构建解决方案。通过实践如挑战权威、拆解问题、重构框架和迭代实验等步骤，我们可以提高问题解决能力。文章通过咖啡店销量下降和特斯拉电动汽车创新两个案例，展示了第一性原理在日常生活和工作中的应用及其重要性，强调了这种思维方式在创新和发展中的价值。

第一性原理大模型 2024-07-10