阿里巴巴开源 Page Agent 教程,用一句话控制网页上的所有操作

精彩教程2小时前更新 小文
84 0

有没有想过,用一句自然语言就能控制网页上的所有操作?这就是阿里巴巴最新开源的 Page Agent,一个直接运行在网页中的 GUI Agent。

核心特性:
– 极简集成:无需浏览器扩展,仅需引入一段 JS 即可
– 文字级 DOM 操作:不用截图、不用多模态模型
– 自带 LLM:支持通义千问、OpenAI 等大模型
– Chrome 扩展:跨页面操作
– MCP 服务器:从外部控制浏览器

快速开始:
方式一:CDN 引入(最快):引用 unpkg.com 上的 page-agent 脚本即可
方式二:npm 安装:npm install page-agent

相关链接:
GitHub:https://github.com/alibaba/page-agent(20.4K Star)
在线 Demo:https://alibaba.github.io/page-agent/

免责声明:本文内容仅供学习交流,项目信息来源于 GitHub 官方仓库。

© 版权声明

相关文章