2025年7月18日,OpenAI首席执行官山姆·奥特曼带队直播,发布了ChatGPT Agent。这是一个统一智能体,它融合了Operator的网页交互能力、Deep Research的信息整合技巧以及ChatGPT的智能对话优势,能够自主思考决策,标志着人工智能应用进入全新阶段。相关介绍如下:功能特点: 自主任务执行:可直接操作计算机,能智能浏览网页、筛选结果、安全登录、运行代码、执行分析,还能直出PPT和Excel汇总结果。例如,为婚礼做准备时,可自动查询场地天气、推荐西装搭配等;上传贴纸图案后,能自动设计样式、比价并完成购物。 多应用连接:借助ChatGPT连接器,可连接Gmail、GitHub等应用,根据提示找到相关信息并给出回复,如总结邮箱内容、查找空闲会议时间等。 任务可中断与交互:操作步骤实时显示,用户可随时中断任务、修改指令或手动“接管浏览器”。智能体在认为有必要时,也会主动向用户请求更多信息,确保任务符合目标。性能表现: - 在评估AI解决跨学科专家级问题的基准测试Humanity’s Last Exam(HLE)中,ChatGPT Agent以41.6的pass@1得分刷新纪录,启用并行执行策略后,得分可提升至44.4。 - 在数学基准FrontierMath中,面对高难度题目,取得了27.4%的准确率,远高于此前模型。 - 在公开评估模型信息查找能力的BrowseComp基准上,以68.9%的准确率刷新记录,较Deep Research高出17.4个百分点。使用权限:Pro、Plus和Team用户可开启体验,在对话框下拉栏中选择“Agent mode”即可。其中,Pro用户每月有400次的使用额度,Plus和Team用户为每月40次。企业版(Enterprise)和教育版(Education)将在未来几周内上线。
|
|