文章列表-AI魔法学院

面壁智能发布新版本面壁小钢炮MiniCPM 4.1基座模型，在MiniCPM 4.0基础上新增8B参数的行业首个原生稀疏架构深思考模型，同级SOTA表现，亮点如下：首个原生稀疏架构深思考模型，推理速度比同尺寸开源模型快3倍以上，综合能力达同级SOTA水平，支持高效双频换挡；在15个最具代表性评测基准中，综合平均分同尺寸模型第一，多个榜单获同级最优成绩；端侧友好，推理速度快，长文本缓存大幅锐减，成为业界目前最为友好的端侧模型；采用“高效双频换挡”机制，实现长、短文本切换的高效响应，可在多个开源框架部署。该模型通过架构创新和自研推理框架确保深思考、长文本在端侧高效应用，采用新一代稀疏注意力架构InfLLM 2.0和自研推理框架CPM.cu。最后文章给出了相关链接。

MiniCPM 4.1 开源模型 2025-09-12

Trickle + Nano Banana，我给老婆 VibeCoding 了一个虚拟试衣间

作者受 Samu 启发，用全搞定 AI Coding 工具 Trickle 开发“虚拟试衣间”。作者因测试 Nano Banana 发现其人物一致性佳，萌生开发想法，虽遭老婆质疑仍坚持。初版因 GoogleAPI 调用问题未成功，次日调通，实现上传多张服装照片一次试穿多件衣服功能。作者在朋友圈宣传并分享 API，后因触发谷歌风控出现错误，删除开放 API Key 后恢复正常。随后，作者添加用户注册/登录功能，提供 3 次免费试玩机会。目前产品处于早期，提示词适配性待优化。作者还分享了用 Trickle 写网站应用的方法及注册链接，点链接注册可额外获 200 积分。

Trickle Nano Banana 文生图 2025-09-11

希音面试：SSE 底层原理是什么？快20年了，为何突然爆火？

什么是SSE？SSE为何突然爆火？SSE与WEBSocket 如何选型？最近有小伙伴在面试希音、滴滴、阿里等，都到了这个的面试题。

SSE 大模型 2025-09-10

语音

语音识别的新拐点：OLMoASR 带来的机会

信息爆炸时代，人机交互方式转变，语音成高效入口，支撑这一变化的是ASR（自动语音识别）技术。ASR即让机器将语音转文字，在教育、医疗等领域成底层基础设施。语音识别重塑生活，在内容创作、教育学习等多方面应用，且都依赖ASR，开源ASR让可能性更普惠。2025年8月28日，艾伦人工智能研究所发布OLMoASR，全栈开放、性能接近Whisper、有多版本选择，是真正公共资源。OLMoASR优势在于降本增效，零API费用、研发门槛低、算力友好、更安全，但有算力、二次开发成本。OLMoASR已发布，可马上启用。其带来开源浪潮，未来ASR创业或有多语种方言、教育场景创新等方向。OLMoASR打破大厂垄断、降低成本，让语音识别更普及，未来各领域或因语音而变。

OLMoASR 语音识别 2025-09-08

开源

开源即巅峰！微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

在当今数字化时代，文本转语音（TTS）技术的应用越来越广泛，从智能助手到有声读物，再到播客等多媒体内容创作。然而，传统的TTS系统在处理长文本、多说话人对话以及情感表达方面存在诸多限制。微软最近开源的VibeVoice模型，以其创新的技术和卓越的性能，为这一领域带来了重大突破。

VibeVoice 7B 语音 2025-09-05

谷歌

让Cursor免费使用谷歌最新图像编辑模型#Nano Banana MCP

文章总结了将谷歌新模型nano-banana制作成MCP，提供生图和编辑图像工具，可装入Cursor或Claude Code批量创建图片素材，使用OpenRouter API，有免费nano-banana可用，需注册并填写key。

Nano Banana MCP 文生图 2025-09-04

LLM

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

本文报告了语音和音频处理领域从专门自动语音识别（ASR）系统向集成多模态音频大语言模型（Audio LLM）的变革，深入比较了七款代表这一技术光谱的模型：通用及专业ASR模型（OpenAI Whisper、FireRedASR-AED、Paraformer-Large、SenseVoice-Large）和多模态音频LLM（Phi-4-multimodal-instruct、Qwen-Audio、Kimi-Audio-7B-Instruct）。通过剖析核心架构、功能和性能，报告为针对特定技术和业务目标选择合适的模型提供了指南，强调了各模型在架构创新、流式支持、时间戳支持、输出模态及关键性能指标等方面的差异和适用性。

音频对比 2025-09-02

大模型

数据脏乱差？一款开源神器让你的大模型更“干净”——Dingo 上手体验

Dingo是一个开源数据质检工具，能为大模型数据生成“体检报告”，快速发现显眼问题及语义细节，支持预训练、SFT、RAG等多种场景，提供规则质检、模型评估、幻觉检测等功能，并生成可视化报告，适用于数据清洗、质量控制、安全合规检查等应用场景。

Dingo 大模型 2025-09-01

Playwright MCP 重大更新：终于可以复用 Chrome 登录态了！

Playwright MCP迎来重大更新，新增Chrome扩展插件，支持复用现有Chrome浏览器环境，保持登录态，使用插件，提升AI与浏览器协作效率，用户体验大幅提升，建议更新使用。

Playwright MCP Chrome 2025-08-29

目前最强图像编辑模型——Nano banana可以免费用了

昨天，nano-banana 终于开放，之前在竞技场小小火了一把，但是没有公司出来认领，8.26谷歌发布了消息，nano-banana就是gemini-2.5-flash-image

Nano banana 文生图 2025-08-28

Agent

月薪5万+的Agent工程师，凭什么这么香？

文章总结：Agent工程师岗位薪资高且对技术背景要求不苛刻，其核心价值在于用AI替代重复性劳动创造商业价值。该岗位门槛正在降低，市场需求井喷，是入局最佳时机。高级Agent工程师需深度理解业务流程，技能栈包括平台操作、工作流设计、数据处理及Markdown和JSON语法。随着AI能力提升，将AI转化为商业价值的人才需求增加，Agent工程师机会广阔，尤其在特定领域。

Agent 工程师 2025-08-27

京东

多智能体开发框架怎么选型？京东 JoyAgent vs langchain LangGraph，两种Agent开发哲学的碰撞!

文章总结：针对AI多智能体框架的选择，推荐传统大厂/Java技术栈/追求快速上线者使用JoyAgent，因其开箱即用、安全省心；AI创业公司/Python技术栈/追求极致灵活者选择LangGraph，因其自由度高、可定制性强。文章深入对比了两者的技术架构、并发机制、工具集成、数据流管理等方面，并通过真实场景展示了两者的应用优势。最后，文章针对不同团队背景给出了战略选择建议。

JoyAgent langchain LangGraph 2025-08-01

汇总1400+文献的神级“上下文工程”综述，治愈初学者的AI迷失症

上下文工程 AI 2025-07-31

《特朗普爱上在白宫当保洁的我》拍好了，3个月赚了10个亿

中国土味短剧《特朗普爱上在白宫当保洁的我》在美国引发吐槽却大获成功，狂赚1.5亿美元。中国短剧团队发现美国市场偏爱土味剧情，开始大量输出此类短剧，包括霸道总裁题材，受到美国观众喜爱并付费观看，成为中国挣外汇的新途径。

短剧 2025-07-30

OpenAI

阿里云王坚：中国AI不惧R2迟发！靠「群体智能」破局：算力不是瓶颈，但AI应用层急需炸开OpenAI想象围墙！不看好硅谷抢人乱象

阿里云创始人王坚在WAIC后接受采访，分享了对中国AI未来的看法，认为中国是技术试验场，技术需经市场淬炼。他谈到AI改变思考方式，不认同AI有严格阶段划分。他认为中国市场推动新技术成熟，群体力量促进AI快速发展。王坚还提到AI应用需更多创造力，不局限于ChatGPT模式。他回顾阿里云经历，称云计算是少数能长久支撑的技术，并预见AI将成为云计算最大客户。对于硅谷天价抢人现象，他认为创新早期需要的是对的人，而非贵的人。

阿里云 AI 2025-07-29