首页 > 人工智能 > 人工智能
发布日期:2025-07-18 13:15:07

ChatGPT 引领新纪元:智能体全面升级,网页浏览、编程、做PPT一键搞定

智能体进化论:网页浏览+编程+PPT制作,一键开启效率革命

   7月18日消息,OpenAI今日凌晨宣布将在ChatGPT中推出一款通用型AI智能体,该公司表示该智能体可以帮助用户完成各种基于计算机的任务。 随着技术的不断进步,AI在日常应用中的角色愈发重要。此次OpenAI推出的通用型AI智能体,标志着人工智能在任务自动化方面又迈出了关键一步。这一进展不仅提升了用户体验,也为未来更复杂的智能交互奠定了基础。在保持原有信息不变的前提下,这项更新无疑为用户提供了更多便利,也反映了科技公司在推动AI普及方面的持续努力。

   OpenAI表示,该智能体能够自动创建可编辑的演示文稿和幻灯片,查看用户的日历并简要介绍即将进行的客户会议,协助规划并购买制作家庭早餐所需的食材,同时还可执行代码等任务。

   该工具名为ChatGPTagent,整合了OpenAI此前多种智能体工具的功能,包括Operator点击网站的能力,以及DeepResearch从多个网站中汇总信息并生成简洁研究报告的能力。OpenAI表示,用户只需通过自然语言指令即可与该智能体进行交互。

   为开发这款新工具,OpenAI将其背后的Operator团队与DeepResearch团队整合成一个统一的团队。据外媒TheVerge报道,该新团队由产品和研究部门的20至35名成员组成。

   OpenAI 表示 ChatGPT 智能体比其之前的任何产品都要强大得多,可以访问 ChatGPT 连接器,允许用户连接像 Gmail 和 GitHub 这样的应用,智能体可以根据用户的提示找到相关信息。此外,OpenAI 表示 ChatGPT 智能体可以访问终端,并可以使用 API 来访问某些应用。

   根据OpenAI的介绍,ChatGPT智能体的底层模型在多项基准测试中展现出领先的表现。在名为“Humanity's Last Exam”的测试中,ChatGPT智能体模型的通过率(pass@1)达到41.6%,这是一份包含数千道题目、覆盖超过一百个学科的高难度测试。这一成绩大约是OpenAI o3和o4-mini模型得分的两倍。

   在知名且难度极高的数学基准测试FrontierMath中,OpenAI表示,当ChatGPT智能体能够使用工具(例如用于代码执行的终端)时,其得分达到了27.4%,而此前的最佳成绩由o4-mini创下,得分为6.3%。

   在DSBench测试中,该测试旨在评估智能体在涵盖数据分析和建模等现实数据科学任务中的表现,ChatGPT智能体显著超越了之前的最先进模型——尤其在数据分析任务中,其表现明显优于人类水平。 从当前技术发展的趋势来看,AI在数据科学领域的应用正逐步深入。ChatGPT在DSBench测试中的优异表现,不仅体现了其强大的数据处理能力,也反映出当前大模型在复杂任务上的潜力。这种进步值得肯定,同时也引发了对AI与人类协作模式的进一步思考。未来,如何将AI的优势与人类的创造力相结合,将是推动行业发展的重要方向。

   在 SpreadsheetBench 平台上,该平台通过评估模型在处理基于真实世界场景的电子表格编辑任务时的表现来进行评分,ChatGPT 智能体创下了新的行业领先水平(SOTA),其性能较当前行业领先的 GPT‑4o 提升了超过一倍。当具备直接编辑电子表格的能力时,ChatGPT 智能体的得分进一步提升至 45.5%,与 Excel 中 Copilot 的 20.0% 相当。

   在内部基准测试中,该模型展现了其处理投资银行分析师(1 至 3 年经验)任务的能力,例如为《财富》500 强企业构建符合规范的财务报表模型(包括格式和引用),或为私有化交易构建杠杆收购模型。ChatGPT 智能体所采用的模型在该测试中显著优于深入研究和 o3 模型。每个任务均根据数百项与正确性和公式使用相关的标准进行评分。

   在WebArena基准测试中(该测试用于评估网络浏览智能体在完成真实网络任务时的性能),该模型相比由o3驱动的CUA(即驱动Operator的模型)表现出更优的表现。

   ChatGPT智能体在BrowseComp⁠基准测试中表现出色,以68.9%的准确率刷新了当前的SOTA纪录,这一成绩比Deepresearch高出17.4%。该测试由OpenAI在今年早些时候发布,旨在评估浏览智能体在网络中查找复杂和难以获取信息的能力。这一进展显示出大模型在实际应用场景中的持续进步,也反映出AI技术在信息检索与处理方面正逐步迈向更深层次的智能化。随着技术的不断演进,未来智能体在复杂任务上的表现值得期待。

   具体使用场景方面:

   在工作中,用户能够自动处理重复性任务,例如将截图或面板转换为由可编辑矢量元素组成的演示文稿、重新安排会议、规划并预订外出活动,以及在保持原有格式的同时,用新的财务数据更新电子表格。这种自动化能力正在逐步改变人们的工作方式,提升效率的同时也减少了人为错误的发生。随着技术的不断进步,这类工具的普及将使更多人从繁琐的日常事务中解放出来,专注于更具创造性和战略性的任务。

   在个人生活中,用户可以规划并预订旅行行程、设计并预订整个晚宴活动,或寻找专业人士并安排预约。

   安全方面,OpenAI强调用户将始终拥有控制权。在执行关键操作之前,ChatGPT会先获得用户的同意,用户可以随时中止流程、接管浏览器或终止当前任务。

   用户可以通过编辑器中的工具下拉菜单直接开启ChatGPT的智能体功能,只需在任意对话过程中选择“智能体模式”,即可启动该功能。用户只需简单描述希望完成的任务——无论是开展深度研究、制作演示文稿,还是处理费用报销等事务。在任务执行过程中,屏幕上的语音播报会实时展示ChatGPT的具体操作步骤,帮助用户了解当前进展。同时,用户可以随时中断流程并重新掌控浏览器操作,确保整个过程始终围绕用户的实际需求展开。 我认为,这一功能的推出标志着AI在辅助用户完成复杂任务方面迈出了重要一步。通过将智能体模式与编辑器无缝结合,用户无需复杂的指令就能实现高效协作。而实时语音播报的设计,则增强了透明度和可控性,让用户对AI的行为有更清晰的认知。这种交互方式不仅提升了效率,也增强了人机协作的信任感,为未来更多智能化应用场景奠定了基础。

   此外,用户可以设置已完成的任务自动重复执行,例如每周一早上自动生成周度指标报告。

   ChatGPT智能体现已对Pro、Plus和Team版本的用户开放,而Enterprise和Education版本的用户将在7月获得使用权限。Pro版用户每月可执行几乎无限数量的任务,其他付费用户每月享有50次任务额度,如需更多使用量,可通过灵活的积分购买选项进行补充。

   OpenAI表示,ChatGPT智能体目前仍处于早期发展阶段,虽然它已经能够处理多种复杂的任务,但仍然可能存在一定的错误。尽管官方认为该功能在生成幻灯片方面展现出巨大的潜力,但目前该功能仍处于测试阶段,生成的内容在格式和细节处理上可能还不够精细,特别是在没有现有文档作为参考的情况下进行创作时更为明显。此外,虽然用户现在可以上传电子表格供ChatGPT进行编辑或作为模板使用,但这一功能尚未扩展到幻灯片的处理中。 从当前的发展来看,ChatGPT在辅助内容生成方面确实具备一定的实用价值,尤其是在信息整理和初步框架搭建上。然而,其在专业性和准确性上的不足,也提醒我们在依赖这类工具时仍需保持审慎态度。未来随着技术的不断优化,这类功能有望更加成熟,为用户提供更高质量的支持。

   OpenAI正在研发ChatGPT幻灯片创建功能的下一代版本,旨在生成更加精致和复杂的输出内容,并具备更广泛的功能与改进的格式化能力。 在我看来,这一进展反映了人工智能在辅助办公工具领域的持续深化。随着用户对效率和专业性的要求不断提高,能够自动生成结构清晰、设计美观的幻灯片内容,无疑将极大提升用户的创作体验。这种技术的进步不仅有助于节省时间,也降低了非专业人士在制作高质量演示文稿时的技术门槛。未来,随着功能的进一步完善,这类工具或将广泛应用于教育、商业汇报等多个场景。

   OpenAI计划按照一定的节奏,逐步引入重要的功能升级,让ChatGPT智能体在不断演进的过程中,为更多用户提供更强大的服务和更优质的体验。 在我看来,这种持续迭代的策略有助于保持技术的前沿性,同时也能让用户感受到产品不断进步的成果。对于用户而言,这意味着他们将长期受益于更加智能、高效的AI助手,而不仅仅是短期的版本更新。这种方式也体现了科技公司对用户体验和长期发展的重视。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有