AI魔法学院客服
我去,找到一个Github上非常优秀的AI项目,可控制鼠标、键盘,模拟人类操作,太丝滑,收藏~~~
Cradle是由BAAIAgents团队开源的多模态AI Agent框架,支持通过截图输入和键鼠输出控制各种本地软件和游戏,具备自我优化和模块化设计特点,解决了LLM在本地任务自动化方面的痛点,包含六大核心模块功能,适用于研发自动化、办公、游戏研发与教学等场景,相比传统工具具有显著优势。
 2025-07-14
收藏 复制地址分享海报


Cradle 是由 BAAI‑Agents 团队开源的一款面向通用计算机控制(GCC的多模态 AI Agent 框架,可以让大型多模态模型,通过截图输入和键鼠输出,像人一样使用各种软件和游戏。

  • 通用目标:支持任意本地软件(如游戏、Office、图像/视频编辑工具)
  • 多模态输入:以截图为输入,支持键盘鼠标操作输出
  • 自主能力:内置“认知反思+技能更新”模块,能不断自我优化
  • 模块化设计:兼顾高可控性和扩展性,轻松适配新环境

痛点场景

GPT 系列大师诞生后,LLM 迎来爆发式成长。但它们依赖“API 文本输入输出”,迟迟无法控制本地界面,本地任务自动化仍然困难:

  • 操作 Office、可视化软件受限
  • 拆分复杂任务,难以形成闭环
  • 缺乏视觉能力,仅凭语言无法定位 UI 元素
  • 无法长时间记忆历史,执行多步逻辑不足

Cradle 正是为解决这些痛点设计的:

  • 可控制鼠标、键盘,模拟人类操作
  • 强化“自我反思”“技能优化”策略
  • 支持长程任务、复合游戏环境、专业软件操作

核心功能

下面盘点 Cradle 6 大核心模块功能:

1.        信息收集(Information Gathering

    • 利用视觉模型处理 UI 截图、文字信息
    • 可接入音频反馈,完成联觉输入

2.        自我反思(Self‑Reflection

    • 回顾历史操作成果,判断是否达成
    • 总结失败原因,为下一步运行提供指导

3.        任务推断(Task Inference

    • 基于环境+历史记忆,推断当前目标
    • 动态规划接下来最优策略

4.        技能策划(Skill Curation

    • 每个任务生成或更新技能函数
    • 按环境定制化策略,实现经验积累

5.        动作规划(Action Planning

    • LLM 输出高层操作(如“点击 X”“移动鼠标到 Y”)
    • 人写桥接层翻译为键鼠动作

6.        记忆模块(Memory

    • 分为短期与长期记忆,含历史记录
    • 支持跨任务复用记忆与技能

这些模块构成一套闭环:输入截图 → 所见 → 自省 → 规划 → 执行 → 记忆反馈。

实验证明,Cradle 可完成:

  • AAA 游戏:Red Dead Redemption 2主线任务、高成功率完成;
  • 市政游戏:Cities: Skylines打造千人城市;
  • 农场游戏:Stardew Valley自动播种收获;
  • 经营游戏:Dealers Life2实现 87% 最高周盈利;
  • 办公软件:登录 Chrome、回复 Outlook、使用 Feishu
  • 编辑工具:美图秀秀、CapCut 图像/视频处理。

技术架构

技术优势一览表

技术优势

描述

完全无 API 洞察

不依赖 UI 内部接口,适配广泛软件

高度模块化配置

易扩展至新游戏或软件环境

能力逐步增强

LLM + 自反思 + 记忆技术,支持自提升

通用操作接口

截图 + 键鼠输出,真正通用

界面示意

应用场景

  • R&D AI Agent 能自主模拟用户操作,替代 UI API 测试
  • 自动化办公: 大量重复任务(邮件、表格、报表)可彻底自动化
  • 游戏 AI 研发: 成为游戏内智能体,测试任务/训练 NPC
  • 流程自动化:提供 UI 自动流水线,少依赖传统 RPA
  • 教育培训: Cradle 可演示操作方法,辅助学员理解复杂软件

谁更强?

框架项目

支持模式

是否依赖 API

关键需求

核心优势

Cradle

截图 + 键鼠操作

API

完整闭环、自主学习

通用性、模块化、适配广

LangChain Agent

文本 API 输入输出

API

文本指令 / HTTP 请求

精于信息检索、文本管理

AutoHotkey / RPA

键鼠宏

API

单步宏操作,缺记忆规划

易用但智力低,自提升弱

Playwright/Selenium

DOM 操作 API

DOM API

网页自动化

擅长网页,局限性大于桌面

优势结论:Cradle 领先于传统或网页自动化工具,是多模态、具备认知能力的“通用软件执行体”。

文章小结

  • Cradle 是首个通用软件控制 AI Agent,支持各种本地软件和 AAA 游戏操作
  • 核心为 6 大模块,具备自思考、自学习、自适应能力
  • 技术架构模块化、可维护性强
  • 相比传统工具,Cradle 拥有视频级体验、全局闭环智能
  • 适用研发自动化、办公、游戏研发与教学等场景

项目地址

https://github.com/baai-agents/cradle

原文出自:https://mp.weixin.qq.com/s/iyiWwgNEsr4Si1WQQlJOxw

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
这个杀手不太冷静2025/7/14 11:14:23
哇塞,这简直是AI界的“瑞士军刀”啊!截图+键鼠操控,直接让LLM变身超级助理,办公、游戏、研发一锅端?模块化设计还意味着想怎么搭就怎么搭,自由度爆表!传统工具表示压力山大~
20秒读懂全文
伴读
### 1. 一句话总结文章摘要
Cradle是由BAAIAgents团队开源的多模态AI Agent框架,支持通过截图和键鼠操作控制各种本地软件和游戏,具备自我优化和全局闭环智能。

### 2. 生成关键词和可能相关的关键词
**关键词**:
- Cradle
- BAAIAgents团队
- 多模态AI Agent框架
- 通用计算机控制(GCC)
-
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群