GenericAgent

3周前发布 38 0 0

GenericAgent是一个核心代码只有约3300行,却能让任意大模型获得对本地计算机的系统级控制,并且越用越强,形成独属于你个人的技能树。

收录时间:
2026-05-14
GenericAgentGenericAgent

在当下各种Agent框架层出不穷的时候,GenericAgent走了一条完全不同的路:极简 + 自我进化。它的核心代码只有约3300行,却能让任意大模型获得对本地计算机的系统级控制,并且越用越强,形成独属于你个人的技能树。这一点,在目前主流Agent方案中几乎是独一份。

GenericAgent

GenericAgent 网站截图

核心设计哲学:不预装技能,只进化技能

大多数Agent框架喜欢把工具、插件、知识库预先塞得满满当当,代码量动辄几十万行,部署复杂。而GenericAgent反其道而行之:

  • 极简原子工具集:仅9个原子工具(代码执行、文件读写、浏览器真实注入、终端、键盘鼠标、屏幕视觉、ADB移动设备控制等)。
  • 极简Agent Loop:核心循环只有约100行。
  • 自我进化机制:每完成一个新任务,Agent会自动将成功的执行路径“结晶”成可复用的Skill(技能/SOP),写入分层记忆系统。下次遇到类似任务,直接一键调用。

这意味着:第一次做某件事时它可能要探索、安装依赖、调试;但从第二次开始,它就变成了“老手”。用得越久,你的Agent实例就越强大,那棵技能树完全是独一无二的。

作者甚至展示了硬核自证:仓库里从安装Git到每一次commit,都是GenericAgent自己完成的,作者全程没碰过终端。

真正突出的技术亮点

  1. 分层记忆系统(Layered Memory) 设计了L0元规则、L1洞察索引、L2全局事实、L3任务技能、L4会话归档等多层记忆。只有需要的信息才会进入上下文,极大提高了信息密度,减少了幻觉。这也是它实现6倍token节省的关键原因之一(上下文窗口通常<30K,却能处理长周期复杂任务)。
  2. 真实浏览器注入 + 系统级控制 不是无头浏览器,而是注入真实浏览器,保留登录态、Cookie等。配合键盘鼠标和视觉能力,能完成点餐、股票筛选、微信消息读取、支付宝记账等真实世界任务。
  3. 极致token效率与低成本 在多个基准测试(SOP-Bench、Lifelong AgentBench等)中,GenericAgent在任务完成率相当甚至更高的情况下,token消耗远低于Claude Code、OpenClaw等方案,同时交互次数更少。长期使用后,成本优势会进一步放大。
  4. 多模型兼容 + 多前端支持 支持Claude、Gemini、Kimi、MiniMax等主流模型。提供终端UI、Streamlit桌面、Qt、Telegram Bot、个人微信等前端,部署简单,几步就能跑起来。
  5. 完全开源与社区潜力 项目活跃,已发布技术报告(arXiv),并有百万级技能库等后续规划。任何人都可以本地部署,甚至通过它来进化出更复杂的自动化工作流。
GenericAgent

与其他Agent的对比

维度 GenericAgent 传统重型Agent框架 Claude Code等
代码量 ~3K行 数十万行 大型
部署难度 极低
自我进化 原生支持,技能树增长 通常无
Token效率 极高(6x节省) 较高消耗
长期能力 越用越强 每次近似从零开始

适用人群与实际价值

  • 开发者/程序员:自动化重复编码、测试、部署流程,积累个人开发技能库。
  • 办公族:自动处理邮件、报表、数据抓取、跨软件操作。
  • 量化/理财用户:股票筛选、数据监控、通知提醒。
  • AI爱好者:研究Agent进化机制,打造真正属于自己的“数字分身”。

当然,它目前仍处于快速发展阶段,复杂长周期任务有时仍需人工干预,技能结晶的质量也依赖底层模型能力。但它的方向非常清晰:让Agent从“一次性工具”变成“持续成长的伙伴”

相关导航

暂无评论

none
暂无评论...