训练魔法-AI魔法学院

星标破万！小钢炮2.6登顶GitHub，Hugging Face TOP3，燃爆开源社区！

MiniCPM-V 2.6作为面壁智能多模态大模型的最新成果，以8B参数在单图、多图及视频理解上全面超越主流商用模型，支持多模态理解和实时视频处理，具备高效推理和强大OCR能力，支持多种语言，成为端侧模型的新标杆。其发布后迅速登顶GitHub和HuggingFace趋势榜，引发全球开发者关注与测试，展现出广泛的应用潜力和未来前景。

MiniCPM-V 2.6 大模型 2024-10-11

大模型

大模型：泛化即智能，压缩即一切！

本文总结了关于机器学习泛化能力的思考，强调了通过大量多样化数据训练高容量模型的重要性。文章将泛化能力比作孔子的“举一反十”，并指出监督学习是优秀的数据海绵，能记住大量数据，通过低训练误差保证对新数据的低预测误差。过度参数化的模型即使训练损失为零也能继续降低风险，表现出更好的泛化能力。无监督学习通过分布匹配学习数据内在结构，类似于压缩过程，实现对数据的深层理解和泛化。文章还讨论了涌现现象，即模型在长时间训练后突然展现出的复杂行为，表明模型学到了数据的数学结构。最后，文章认为追求长期的模型泛化能力比短期微调更重要，并希望这一原则能启发解决其他挑战性问题的思路。

泛化大模型 2024-10-10

AI撬开小县城的万元商机

AI技术正快速下沉至四五线城市及县城，带来教育、医疗等多领域革新，并催生AI电商、AI广告、AI自习室等新型商业模式，为下沉市场创造丰富商业机会。AI技术的普及降低了使用门槛，结合当地需求，吸引大厂布局并推动商业化进程。尽管面临认知度和适配性挑战，AI在下沉市场的应用前景广阔，有望改变用户生活方式，为企业和创业者带来新机遇。

AI 商机 2024-10-10

工具

惊艳推荐！8款好用又免费的文本转语音TTS工具

本文介绍了TTS（文本转语音）技术的发展，从早期依赖预录制声音样本到现今基于AI的深度神经网络模型。随后，列举了多个好用且免费的文本转语音工具，包括TTS Maker、微软Azure、PaddleSpeech、VoiceVox、TensorFlowTTS、TTSKit、OpenTTS和eSpeak NG，并简要介绍了它们的特点、使用方式及官方网站或GitHub链接。

TTS Maker 语音 2024-10-09

开源

GitHub星数暴涨，AIPC的开源实现，用AI记录电脑一整天的使用太简单了，功能非常多！

AIPC是微软提出的集成AI于电脑的概念，screenpipe是其部分开源实现，已完全开源并广受欢迎。ScreenPipe全天监控电脑屏幕和麦克风，用户掌控数据，支持搜索和自动化处理。用Rust开发，有灵活插件系统，可协同Ollama等工具。功能包括每日摘要、会议纪要、安全监控等，确保隐私安全。适用于开发个性化AI应用的开发者。

AIPC ScreenPipe 开源 2024-10-09

RAG

高级 RAG 技术——图解概览

检索增强生成（RAG）通过结合从数据源检索到的信息，为大语言模型（大语言模型）生成的回答提供依据。简而言之，RAG 结合了搜索和大语言模型提示功能，即在模型回答问题时，以搜索算法发现的信息作为上下文环境。这里，查询请求和检索到的上下文同时被注入发送至大语言模型的提示中。

RAG 检索图解 2024-10-08

大模型

Openai 异步客户端接入国产大模型 Kimi

Moonshot AI开发的人工智能助手Kimi Chat具备强大的长文本处理能力，支持长达20万字的上下文处理，提升对话连贯性和准确性。其API设计兼容OpenAI，便于开发者迁移和接入。Moonshot开放平台为新用户赠送API调用额度。文章还介绍了适合大模型调用的webman/openai异步非阻塞客户端，通过流式和非流式返回实现高效的大模型对话功能。

Kimi Chat 大模型 2024-10-08

RAG

RAT = CoT + RAG

Retrieval Augmented Thoughts (RAT) 是一种结合协同思维链和检索增强生成的 AI 策略，旨在解决 LLM 在长任务推理中的事实准确性问题，通过迭代修正模型推理步骤，提升输出准确性，广泛适用于代码生成、数学推理、创意写作和任务规划，为 AI 推理能力设定新标准。

RAT 协同思维链检索增强生成 2024-09-29

高效选择：Ollama与LM Studio深度对比

Ollama与LM Studio是两款本地语言模型工具，Ollama以简单易用、开源及定制化灵活为特点，适合初学者和非技术人员；LM Studio则功能丰富、用户界面友好、商业支持强，并提供广泛模型资源，适合追求功能丰富的用户。两者在模型选择与兼容性上各有优势，用户可根据需求选择。

Ollama LM Studio 对比 2024-09-27

RAG

RAG 2.0，终于把RAG做对了！

**RAG 2.0革新生成式AI，通过端到端训练将检索器与LLM结合，提升实时响应准确性。然而，随着大型语言模型处理长序列能力的提升和成本降低，RAG的未来面临挑战，其存亡或将取决于成本效益考量。**

RAG 大语言模型 2024-09-27

Agent

Agent具体实现

文章总结了使用Langchain Agent解决复杂多步问题的方法，适用于可拆分为多个子模块的问题场景。Agent通过Thought-Action-Observation循环自动选择并执行动作，无需手动编写if/else逻辑。Langchain提供工具支持，用户可自定义工具并封装成代理程序，实现模块化复用。Agent相比Chain更动态，由大模型决策过程。文章启发是将方法封装成代理，利用大语言模型组装积木块解决问题。

Agent 大模型 2024-09-26

开源

RAGFlow：开源的RAG引擎，专注于深入的文档理解，支持处理各种复杂格式的非结构化数据

RAGFlow是开源的RAG引擎，专注于深度文档理解，通过大型语言模型提供真实问答能力，支持多种复杂格式数据。其特点包括智能、可解释、可视化分块、支持多种数据源和可配置模型等。系统架构未详述，但提供了详细的安装、配置及从源代码构建Docker镜像的步骤，适用于各种规模企业。

RAGFlow RAG 开源 2024-09-25

开源

搞了一个Dify开源知识库

也是在机缘巧合下，感谢MAX和众多大佬的呼声支持下，临时组建了这么一个dify开源交流社区，因为我是初学者，从官方文档入手，从一个初学者的角度步步为营，整理出一个公开的知识库v1.0版本，因为时间仓促，不太完善，欢迎技术大佬、开发者一起来完善。

Dify 大模型知识库 2024-09-25

ComfyUI

从零开始：构建你的首个ComfyUI工作流

从2023年下半年开始，AI绘画界出现了一颗新星——ComfyUI。这个工具以其快速、流畅的图像生成能力，以及对低配置设备的友好性，迅速在创作者中流行起来。ComfyUI的一个亮点是能够一键加载大量工作流，让用户轻松实现人像生成、背景替换和图片动画化等功能。如果你像许多人一样，是通过Web UI开始你的stable diffusion之旅，那么你可能会对ComfyUI的崛起感到好奇。这个工具的受欢迎程度正在迅速上升，已经成为许多AI绘画爱好者的首选。在本篇文章中，我将带你了解ComfyUI，这个正在改变AI绘画游戏规则的应用。

comfyui 文生图工作流程 2024-09-24

大模型

北大开源最强aiXcoder-7B代码大模型！聚焦真实开发场景，专为企业私有部署设计

aiXcoder团队发布了全新开源的代码大模型aiXcoder-7B Base版，专注于企业软件开发场景，尽管参数仅70亿，但表现超越340亿参数的Codellama，成为百亿级最强代码大模型。该模型在真实开发场景中表现优异，尤其在代码生成补全和跨文件能力上领先，支持私有化部署和个性化定制，旨在提高开发效率和代码质量，加速软件开发自动化进程。

aiXcoder-7B 大模型 2024-09-24