训练魔法-AI魔法学院

面壁智能发布新版本面壁小钢炮MiniCPM 4.1基座模型，在MiniCPM 4.0基础上新增8B参数的行业首个原生稀疏架构深思考模型，同级SOTA表现，亮点如下：首个原生稀疏架构深思考模型，推理速度比同尺寸开源模型快3倍以上，综合能力达同级SOTA水平，支持高效双频换挡；在15个最具代表性评测基准中，综合平均分同尺寸模型第一，多个榜单获同级最优成绩；端侧友好，推理速度快，长文本缓存大幅锐减，成为业界目前最为友好的端侧模型；采用“高效双频换挡”机制，实现长、短文本切换的高效响应，可在多个开源框架部署。该模型通过架构创新和自研推理框架确保深思考、长文本在端侧高效应用，采用新一代稀疏注意力架构InfLLM 2.0和自研推理框架CPM.cu。最后文章给出了相关链接。

MiniCPM 4.1 开源模型 2025-09-12

Trickle + Nano Banana，我给老婆 VibeCoding 了一个虚拟试衣间

作者受 Samu 启发，用全搞定 AI Coding 工具 Trickle 开发“虚拟试衣间”。作者因测试 Nano Banana 发现其人物一致性佳，萌生开发想法，虽遭老婆质疑仍坚持。初版因 GoogleAPI 调用问题未成功，次日调通，实现上传多张服装照片一次试穿多件衣服功能。作者在朋友圈宣传并分享 API，后因触发谷歌风控出现错误，删除开放 API Key 后恢复正常。随后，作者添加用户注册/登录功能，提供 3 次免费试玩机会。目前产品处于早期，提示词适配性待优化。作者还分享了用 Trickle 写网站应用的方法及注册链接，点链接注册可额外获 200 积分。

Trickle Nano Banana 文生图 2025-09-11

希音面试：SSE 底层原理是什么？快20年了，为何突然爆火？

什么是SSE？SSE为何突然爆火？SSE与WEBSocket 如何选型？最近有小伙伴在面试希音、滴滴、阿里等，都到了这个的面试题。

SSE 大模型 2025-09-10

语音

语音识别的新拐点：OLMoASR 带来的机会

信息爆炸时代，人机交互方式转变，语音成高效入口，支撑这一变化的是ASR（自动语音识别）技术。ASR即让机器将语音转文字，在教育、医疗等领域成底层基础设施。语音识别重塑生活，在内容创作、教育学习等多方面应用，且都依赖ASR，开源ASR让可能性更普惠。2025年8月28日，艾伦人工智能研究所发布OLMoASR，全栈开放、性能接近Whisper、有多版本选择，是真正公共资源。OLMoASR优势在于降本增效，零API费用、研发门槛低、算力友好、更安全，但有算力、二次开发成本。OLMoASR已发布，可马上启用。其带来开源浪潮，未来ASR创业或有多语种方言、教育场景创新等方向。OLMoASR打破大厂垄断、降低成本，让语音识别更普及，未来各领域或因语音而变。

OLMoASR 语音识别 2025-09-08

LLM

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

本文报告了语音和音频处理领域从专门自动语音识别（ASR）系统向集成多模态音频大语言模型（Audio LLM）的变革，深入比较了七款代表这一技术光谱的模型：通用及专业ASR模型（OpenAI Whisper、FireRedASR-AED、Paraformer-Large、SenseVoice-Large）和多模态音频LLM（Phi-4-multimodal-instruct、Qwen-Audio、Kimi-Audio-7B-Instruct）。通过剖析核心架构、功能和性能，报告为针对特定技术和业务目标选择合适的模型提供了指南，强调了各模型在架构创新、流式支持、时间戳支持、输出模态及关键性能指标等方面的差异和适用性。

音频对比 2025-09-02

大模型

数据脏乱差？一款开源神器让你的大模型更“干净”——Dingo 上手体验

Dingo是一个开源数据质检工具，能为大模型数据生成“体检报告”，快速发现显眼问题及语义细节，支持预训练、SFT、RAG等多种场景，提供规则质检、模型评估、幻觉检测等功能，并生成可视化报告，适用于数据清洗、质量控制、安全合规检查等应用场景。

Dingo 大模型 2025-09-01

Playwright MCP 重大更新：终于可以复用 Chrome 登录态了！

Playwright MCP迎来重大更新，新增Chrome扩展插件，支持复用现有Chrome浏览器环境，保持登录态，使用插件，提升AI与浏览器协作效率，用户体验大幅提升，建议更新使用。

Playwright MCP Chrome 2025-08-29

Agent

月薪5万+的Agent工程师，凭什么这么香？

文章总结：Agent工程师岗位薪资高且对技术背景要求不苛刻，其核心价值在于用AI替代重复性劳动创造商业价值。该岗位门槛正在降低，市场需求井喷，是入局最佳时机。高级Agent工程师需深度理解业务流程，技能栈包括平台操作、工作流设计、数据处理及Markdown和JSON语法。随着AI能力提升，将AI转化为商业价值的人才需求增加，Agent工程师机会广阔，尤其在特定领域。

Agent 工程师 2025-08-27

京东

多智能体开发框架怎么选型？京东 JoyAgent vs langchain LangGraph，两种Agent开发哲学的碰撞!

文章总结：针对AI多智能体框架的选择，推荐传统大厂/Java技术栈/追求快速上线者使用JoyAgent，因其开箱即用、安全省心；AI创业公司/Python技术栈/追求极致灵活者选择LangGraph，因其自由度高、可定制性强。文章深入对比了两者的技术架构、并发机制、工具集成、数据流管理等方面，并通过真实场景展示了两者的应用优势。最后，文章针对不同团队背景给出了战略选择建议。

JoyAgent langchain LangGraph 2025-08-01

汇总1400+文献的神级“上下文工程”综述，治愈初学者的AI迷失症

上下文工程 AI 2025-07-31

OpenAI

阿里云王坚：中国AI不惧R2迟发！靠「群体智能」破局：算力不是瓶颈，但AI应用层急需炸开OpenAI想象围墙！不看好硅谷抢人乱象

阿里云创始人王坚在WAIC后接受采访，分享了对中国AI未来的看法，认为中国是技术试验场，技术需经市场淬炼。他谈到AI改变思考方式，不认同AI有严格阶段划分。他认为中国市场推动新技术成熟，群体力量促进AI快速发展。王坚还提到AI应用需更多创造力，不局限于ChatGPT模式。他回顾阿里云经历，称云计算是少数能长久支撑的技术，并预见AI将成为云计算最大客户。对于硅谷天价抢人现象，他认为创新早期需要的是对的人，而非贵的人。

阿里云 AI 2025-07-29

语音

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

MeloTTS是由MIT和MyShell.ai联合开源的高质量多语言语音合成方案，支持10种语言及中英文混读，CPU实时推理，音质优于商业方案且完全免费，解决了市面上TTS服务昂贵、质量差、限制多等问题，适用场景广泛，对商业化友好，项目发展迅速，预测将深刻影响语音合成行业。

MeloTTS 语音工具 2025-07-28

大模型

大模型是怎么“用工具”的：一文讲透 Function Calling 策略

文章总结：Function Calling策略使大模型能准确调用函数处理用户问题，包括注册工具、生成调用指令、由智能体系统执行并返回结果给大模型。大模型负责理解问题、匹配工具、输出JSON调用指令，需经过结构化函数调用数据训练。Function Calling优点是标准、清晰、安全可控，是大模型的结构化、工程化解决方案。

Function Calling 大模型 2025-07-25

赛博牛马，智谱 AI，悄悄出了一个 AI PPT

智谱AI推出「AI Slides」功能，可生成具有电影级质感的PPT，设计精美但导出主要为PDF格式，适合快速非正式汇报；与常见PPT助手Kimi对比，Kimi编辑自由度和格式兼容性更佳，适合需要大量个性化修改和正式分享的场景。选择应根据实际需求决定。

智谱 AI PPT 2025-07-24

LLM

Ollama还是vLLM？深度解析四大顶级LLM服务框架：性能、特性与技术选型指南

本文介绍了四种开源LLM（大型语言模型）服务框架：Ollama、vLLM、SGLang和LLaMA.cpp Server。Ollama以易用性和本地多模型管理为优势，适合本地和个人部署。vLLM专注于GPU高吞吐量和低延迟，适合高需求生产环境。SGLang擅长复杂工作流控制和高性能，适合高级开发者构建复杂AI应用。LLaMA.cpp Server以极致轻量和跨平台为特点，适合资源受限环境。文章还对比了四大框架的核心特性，并提供了选择合适框架的建议。

LLM 服务框架 2025-07-23