训练魔法-AI魔法学院

秒懂AI-深度学习五大模型：RNN、CNN、Transformer、BERT、GPT简介

本文介绍了深度学习领域的五种常用模型：RNN、CNN、Transformer、BERT和GPT，它们在自然语言处理、计算机视觉等领域取得显著突破。RNN适合处理时间序列数据，CNN擅长图像数据，Transformer通过自注意力机制处理长序列，BERT和GPT作为预训练语言模型分别通过双向和单向Transformer编码器在NLP任务中表现出色。每种模型均有其独特的处理数据方式和应用场景，并附有经典案例。

大模型学习 2024-10-24

李彦宏偏爱小模型｜AI光年

李彦宏在百度AI开发者大会上提出，大语言模型本身不直接创造价值，其价值在于基于其开发的AI应用。他分享了三个AI原生应用开发思路：MoE混用大小模型、小模型高效应用、智能体降低开发门槛。百度发布了三款开发工具及多款模型，并指出AI编程正改变开发者群体，但暂不能完全替代人类程序员。同时，李彦宏与周鸿祎就开源与闭源模型优劣展开讨论，李彦宏认为闭源模型在大模型场景下更具优势。百度文心大模型性能显著提升，用户数与应用数大幅增长。

李彦宏小模型 2024-10-24

写作

绝了！新华社、知网官方出品的写作神器，不要太爽！

新华妙笔是新华社推出的AI公文写作工具，提供AI写作、校对、续写等功能，支持多种文稿类型，有丰富模板和范文。此外，国内AI大模型如百度、阿里等也可用于公文写作但需引导。智能公文系统、学习强国、国务院政策文件库及写易小程序等是公文素材检索平台。微信搜一搜也是高质量素材来源。AI虽能辅助写作，但优秀公文仍需平时积累和学习。

新华妙笔写作 2024-10-23

教程

SD入门教程七：ControlNet篇-Canny边缘检测预处理器

文章介绍了ControlNet预处理器和模型的使用方法及作用，特别是Canny边缘检测预处理器的详细操作。文章指出不同版本的SD模型需匹配相应版本的ControlNet模型，预处理器用于处理参考图片提取特征，与ControlNet模型配合使用控制图片结构。Canny预处理器能识别图像边缘轮廓，通过调整参数如分辨率、低阈值/高阈值优化提取效果，适用于图片重绘等场景。最后，文章提及了ControlNet的作者信息及相关资源链接。

Canny SD 2024-10-23

Yi技术报告细节分享

Yi模型技术报告详解：围绕规模、数据质量设计，预训练强调数据清洗与去重，微调注重数据质量与多样化任务覆盖，采用特殊分词器、Transformer-Decoder结构并调整注意力机制等。模型扩展包括提升上下文长度和模型深度，前者通过继续预训练和微调实现，后者通过评估层间余弦相似度选择扩展层，构建Yi-9B模型。Yi模型已开源，研究扩展深度至Yi-9B的方法值得关注。

Yi模型大模型 2024-10-22

基于 Kimi Chat 的 AI 渐进式阅读法

文章介绍了一种利用AI（特别是Kimi Chat）辅助的“渐进式阅读法”，以提高处理大量文章的效率。该方法分三步：首先，AI提取文章元数据、总结并列举大纲；其次，AI详细总结内容、结论及知识点，并提出疑问；最后，根据个人需求进行个性化进阶阅读，如追问、解释专有名词等。尽管AI阅读存在局限性，如误判、幻觉及非结构化信息处理不足，但随技术进步有望改善。强调AI无法取代亲自阅读与思考的重要性。

Kimi Chat 阅读 2024-10-21

大模型

从零开始学习大模型-第二章-大模型学习路线

文章概述了学习大模型（如GPT-4、BERT）的重要性及建议路径，包括基础（数学、编程、机器学习）、深度学习必备知识、大模型入门与实践应用，以及进阶学习（模型优化、关注最新研究）和伦理安全考量。

大模型学习 2024-10-21

XX来信：智能体设计模式2：Reflection

文章介绍了AI智能体工作流中的Reflection（反思）设计模式，强调通过多次提示LLM并让其反思输出以逐步构建高质量输出的重要性。Reflection通过自动化反馈和重写过程提升模型性能，并可通过多智能体框架或提供评估工具来增强。推荐相关论文供深入学习，并预告后续将讨论其他智能体设计模式。同时提及了新上线的JavaScript短期课程，介绍如何使用RAG构建全栈web应用程序。

Reflection 智能体 2024-10-18

大模型

宁德核电推出全球参数量最大的核工业大模型｜InfoQ 独家

中国广核集团福建宁德核电有限公司发布了专为核工业领域打造的大语言模型「锦书」，参数规模达720亿，旨在解决核电行业知识管理、低脑力劳动过多、安全分析能力不足等问题。该模型拥有全球最大核工业预训练语料库，开发了多项创新应用，如智能培训系统、个人岗位晋升系统等，显著提升了工作效率并降低了人力成本。项目负责人表示，「锦书」不仅推动了核电行业的数智化转型，也为AI在其他工业领域的应用提供了重要借鉴。

宁德核电大模型 2024-10-17

使用 Dify 和 Moonshot API 构建你的 AI 工作流（一）：让不 AI 的应用 AI 化

Dify 团队推出了包含 AI Workflow 新功能的 v0.6.0[2]，这个功能虽然从去年年底就在做了，但是因为功能复杂，代码变更量巨大，直至今天 v0.6.4[3] 正式发布，才算进入一个相对稳定期，所以适合写一篇新的文章来聊聊啦。

Dify Moonshot API 工作流 2024-10-17

开源

世界上最流行（github排名高）的开源移动机器人的操作系统ROS开源了！！

TurtleBot3是一款小型、低成本、完全可编程的移动机器人，它基于ROS（Robot Operating System）开发，并继承了TurtleBot系列的优秀特性。作为TurtleBot系列的第三代产品，TurtleBot3在二代的基础之上做了一些改进，并增加了一些新功能以满足用户的需求。这款机器人的主要特点包括开源ROS软件、硬件开源、小尺寸、低价格、模块化驱动以及强大的扩展性。它配备了强悍的传感器，如激光雷达和摄像头，使其具有自主导航、避障、物体识别等功能。此外，TurtleBot3还支持语音识别和语音合成技术，可以与人进行自然语言交互，完成特定任务。 TurtleBot3的目标是在不牺牲功能和质量的情况下，大幅缩小平台的大小和降低价格。它提供了多种定制化的选择，包括不同的底盘、计算机和传感器，以满足用户多样化的需求。同时，它还支持搭载机械手，如OpenManipulator，以扩展其应用范围。在教育领域，TurtleBot3可以作为一个优秀的教学平台，帮助学生更好地理解和学习机器人技术。对于研究人员来说，它可以作为一个灵活的研究工具，用于测试新的算法和技术。此外，由于其低成本和可扩展性，TurtleBot3还非常适合作为产品原型开发的平台。总的来说，TurtleBot3是一款功能强大、灵活多变的移动机器人，适用于教育、研究、产品原型和爱好应用等多种场景。

ROS 机器人开源模型 2024-10-16

所有生命分子一夜皆可AI预测！AlphaFold 3改变人类对生命的理解，全球科学家都能免费使用

AlphaFold 3在Nature发表，能以前所未有的精度预测所有生命分子的结构和相互作用，包括蛋白质、DNA、RNA等，通过去噪扩散模型直接生成原子3D坐标，预测准确度大幅提升，成为全球首个超越基于真实结构预测的工具。DeepMind宣布科学家可免费使用AlphaFold 3进行非商业研究，但其商业化途径通过Isomorphic Labs进行。尽管AlphaFold 3有诸多突破，仍存在局限性和错误，但其展示了用深度学习建模复杂生命系统组件相互作用的潜力。

AlphaFold 3 蛋白预测 2024-10-15

开源

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

上海交大开源的F5-TTS，一款基于流匹配的全非自回归文本到语音转换系统，以其高效、自然和多语言支持的优势脱颖而出，接近商用水平。其技术亮点包括全非自回归架构、流匹配技术、Diffusion Transformer应用、Sway Sampling策略、简化的训练流程及高性能多语言支持。项目链接已提供。

F5-TTS 音频克隆 2024-10-15

开源

微软最新模型Phi-3 Mini开源登场！小模型，大未来！!

微软推出开源AI模型Phi-3 Mini，性能超越Llama-3 8B，擅长语言理解、逻辑推理等，且体积小、成本低，便于本地部署和运行。用户可通过LM Studio平台下载并免费使用，确保数据安全。同时提供ChatGPT 4.0和3.5的在线使用链接。

Phi-3 Mini 人工智能 2024-10-14

Agent

为什么大佬都在说Agent是未来？换个角度来谈一谈

文章指出AI领域看好Agent为未来最具潜力方向，通过“旅游”需求案例说明LLM、RAG、Agent的能力边界：LLM和RAG主要生成内容，Agent则能端到端完成任务。Agent不仅生成内容，还利用工具完成用户任务，满足更完整需求。随着Agent能力提升，将打破现有平衡，带来人与机器竞争，但也孕育巨大机会，可能催生新商业模式，改变社会生活。

Agent 大模型 2024-10-14