文章列表-AI魔法学院

文章总结了使用Langchain Agent解决复杂多步问题的方法，适用于可拆分为多个子模块的问题场景。Agent通过Thought-Action-Observation循环自动选择并执行动作，无需手动编写if/else逻辑。Langchain提供工具支持，用户可自定义工具并封装成代理程序，实现模块化复用。Agent相比Chain更动态，由大模型决策过程。文章启发是将方法封装成代理，利用大语言模型组装积木块解决问题。

Agent 大模型 2024-09-26

数字人

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

字节新项目Loopy在即梦上线，通过AI技术实现数字人声音、表情、情绪与画面完美匹配，解决传统对口型视频的割裂感，提供中文效果最佳的对口型服务，支持文本朗读和上传本地配音，让数字人更加真实自然。

Loopy 视频 2024-09-26

开源

RAGFlow：开源的RAG引擎，专注于深入的文档理解，支持处理各种复杂格式的非结构化数据

RAGFlow是开源的RAG引擎，专注于深度文档理解，通过大型语言模型提供真实问答能力，支持多种复杂格式数据。其特点包括智能、可解释、可视化分块、支持多种数据源和可配置模型等。系统架构未详述，但提供了详细的安装、配置及从源代码构建Docker镜像的步骤，适用于各种规模企业。

RAGFlow RAG 开源 2024-09-25

开源

搞了一个Dify开源知识库

也是在机缘巧合下，感谢MAX和众多大佬的呼声支持下，临时组建了这么一个dify开源交流社区，因为我是初学者，从官方文档入手，从一个初学者的角度步步为营，整理出一个公开的知识库v1.0版本，因为时间仓促，不太完善，欢迎技术大佬、开发者一起来完善。

Dify 大模型知识库 2024-09-25

ComfyUI

从零开始：构建你的首个ComfyUI工作流

从2023年下半年开始，AI绘画界出现了一颗新星——ComfyUI。这个工具以其快速、流畅的图像生成能力，以及对低配置设备的友好性，迅速在创作者中流行起来。ComfyUI的一个亮点是能够一键加载大量工作流，让用户轻松实现人像生成、背景替换和图片动画化等功能。如果你像许多人一样，是通过Web UI开始你的stable diffusion之旅，那么你可能会对ComfyUI的崛起感到好奇。这个工具的受欢迎程度正在迅速上升，已经成为许多AI绘画爱好者的首选。在本篇文章中，我将带你了解ComfyUI，这个正在改变AI绘画游戏规则的应用。

comfyui 文生图工作流程 2024-09-24

大模型

北大开源最强aiXcoder-7B代码大模型！聚焦真实开发场景，专为企业私有部署设计

aiXcoder团队发布了全新开源的代码大模型aiXcoder-7B Base版，专注于企业软件开发场景，尽管参数仅70亿，但表现超越340亿参数的Codellama，成为百亿级最强代码大模型。该模型在真实开发场景中表现优异，尤其在代码生成补全和跨文件能力上领先，支持私有化部署和个性化定制，旨在提高开发效率和代码质量，加速软件开发自动化进程。

aiXcoder-7B 大模型 2024-09-24

Prompt

不用再羡慕Prompt大神了！看了这篇文章，你只需10秒钟，就能拥有自己想要的专业级Prompt！

文章分享了一个万能Prompt模板，帮助用户快速生成专业级小红书笔记创作角色的Prompt。通过访问通义千问平台，复制模板并替换角色名称，即可在10秒内获得个性化Prompt。模板详细定义了角色背景、偏好、简介、目标、限制条件、技能、示例输出、工作流程及初始化提示，并以Markdown格式展示。用户可根据此模板生成各类专业角色的Prompt，提升内容创作效率。

prompt 写作 2024-09-23

RAG

RAG 修炼手册｜一文讲透 RAG 背后的技术

本文详细介绍了从Embedding技术到Transformer、BERT、LLM（包括GPT系列和ChatGPT）等自然语言处理领域的发展历程及基本原理。Embedding将非结构化数据转为向量表示，Word2Vec是其早期代表，但存在多义词问题。Transformer通过自注意力机制捕捉上下文关系，推动了BERT等预训练模型的发展，实现了句子嵌入。GPT系列作为LLM的代表，通过不断迭代提升了文本生成能力，ChatGPT则进一步增强了响应指令、代码生成、推理等能力，但也存在数学能力弱、产生幻觉、知识不实时更新等不足。RAG技术作为解决方案之一，结合了向量数据库和LLM。整体而言，深度学习在自然语言处理领域的应用日益广泛，未来可期。

RAG Embedding 2024-09-23

StableDiffusion

StableDiffusion模型推荐系列（功能型）

文章总结了Stable Diffusion（SDXL）及其LoRA模型在平面设计和UI设计中的应用优势，特别是在LOGO设计、图标设计、贴纸表情包设计等方面的潜力和具体实例。通过加载特定功能的LoRA模型，SDXL能够高效生成符合品牌调性和设计需求的多样化设计方案，提升设计师工作效率并激发创造力。文章还介绍了三个具体的LoRA模型（Logo.Redmond、Stickers.Redmond、Game icon）的基本信息、推荐参数、特点和使用提示，帮助设计师更好地利用这些工具进行创作。

StableDiffusion 文生图 2024-09-20

大模型

Meta无限长文本大模型来了：参数仅7B，已开源

Meta提出了MEGALODON，一种用于高效大语言模型（LLM）预训练和推理的神经架构，实现了无限长上下文的建模能力。该架构继承并改进了MEGA架构，通过引入复数指数移动平均（CEMA）、时间步归一化层、归一化注意力机制及具有两跳残差的预归一化配置，提高了模型在处理长文本时的效率和稳定性。实验结果显示，MEGALODON在多项基准测试中表现优异，特别是在处理长上下文时，显著优于现有的Transformer变体，证明了其在建模极长序列方面的有效性和鲁棒性。

Meta 长文本大模型 2024-09-20

LLM

LLM Agent最常见的九种设计模式(图解+代码)

本文介绍了LLM Agent的九大设计模式，包括ReAct、Plan and Solve、Reason without Observation、LLMCompiler、Basic Reflection、Reflexion、Language Agent Tree Search、Self-Discover和Storm。每种模式通过其原理、提示词模板、架构组成等方面进行了详细阐述，并强调了通过定制Prompt模板和外部工具定义来实现Agent落地场景的重要性。文章最后指出，没有最好的设计模式，只有最适合用户需求的设计模式。

LLM Agent 图解 2024-09-19

换脸

AI换脸：FaceFusion 3.5.0更新，解决老版本无法使用问题！

FaceFusion发布V3.5.0和V3.4.1两个版本更新，包括帧着色、唇同步改善、面部关键点识别、面部增强、帧增强选项、模型管理优化、环境管理改进、CUDA 12兼容性增强、帧率稳定修复等。同时，在源版基础上做了多项修改，如破除NSFW限制、修复模型加载问题、添加自动打开浏览器功能、模型本地化、界面汉化等。最新版本还解决了模型加载错误、优化了启动速度、重新制作了运行环境，实现彻底离线运行。

FaceFusion 文生图 2024-09-19

StableDiffusion

StableDiffusion模型推荐系列（全能型）

AI绘画中，Midjourney以单模型驾驭多样风格，而Stable Diffusion需多模型切换。Stable Diffusion模型复杂但个性化强，训练成本高，催生大量定制化模型但质量不一。推荐Juggernaut XL、DreamShaper XL、LEOSAM's HelloWorld XL等全能大模型，减少选择困扰，提供高质量多风格创作体验。

stablediffusion sd 文生图 2024-09-18

大模型

比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

Groq模型以惊人速度每秒输出近500个token，远超ChatGPT-3.5，其背后自研的LPU（语言处理单元）是关键，比GPU性能快10倍，且成本更低。Groq模型免费用，支持多种AI开发框架，但不支持训练。LPU设计独特，采用SRAM而非HBM，提升了速度和能效，适合大规模AI推理。Groq已在基准测试中表现出色，或可取代GPU在AI推理中的应用。公司CEO表示其目标是帮助更多人发展AI。

Groq 大模型 2024-09-18

Sora

深度｜万字访谈！Open AI Sora作者，亲自揭秘Sora原理，Sora能带我们通往AGI吗？

本文精心编译自 OpenAI Sora 的主要作者Tim Brooks 和 Bill Peebles 在AGI House 主题演讲。Tim 和 Bill 轮番分享了Sora的训练细节、数据工程及未来设想，是技术报告之外最一手的信息。ZP 团队摘要了其中亮点信息，同时也推荐你阅读原文，Enjoy !

Sora 原理 2024-09-14