半岛综合体育OpenAI的第一个重要产品ChatGPT非常受欢迎,引发了一批仿效者。但随着谷歌等竞争对手的迎头赶上,OpenAI正在加紧发布一款几乎同样具有革命性的产品。
OpenAI正在开发一种代理软件,通过有效地接管客户的设备来自动化复杂任务。例如,客户可以要求ChatGPT代理将文档中的数据转移到电子表格进行分析,或者自动填写费用报告并将其输入会计软件。据了解,这些请求将触发代理执行点击、光标移动、文本输入和其他人类在使用不同应用程序时所采取的操作。
该软件是OpenAI正在开发的两种类型的代理之一,OpenAI正在进入人工智能领域中最热门的领域之一,这可能很快会包括谷歌和Meta平台。一些长期从事人工智能研究的研究人员已经离开谷歌等公司,开始创办开发代理的公司。
鉴于这种接入用户计算机的代理可能会让一些人联想到恶意软件,后者以非法方式控制计算机并窃取数据,OpenAI将不得不缓解对此的担忧。
开放AI是一家在生成式人工智能领域领先的公司,最近投资者对其估值达到860亿美元。据知情人士透露,该公司正在开发另一类人工智能代理程序,用于处理基于网络的任务,例如收集一组公司的公共数据、制定符合特定预算的行程或者预订机票。谷歌和Meta也表示正在开发类似类型的代理程序,其动力来自被称为大型语言模型的对话式人工智能技术。
OpenAI正在开发的两种代理形式可能帮助首席执行官Sam Altman将ChatGPT打造成他私下称之为“超智能的工作个人助理”半岛bob综合登入。它们还可能使他的公司与微软直接竞争,微软也正在使用OpenAI的LLMs来自动化其企业应用程序的功能,以帮助人们快速创建新文档或起草电子邮件回复。
LLMs支撑着像ChatGPT这样的生产力聊天机器人半岛bob综合登入,并且OpenAI的一些人也认为它们有潜力成为一种操作系统,包括个人设备,因为它们能够编写代码、理解图像和检索文件。代理人可以进一步支持这种潜力。(在这里阅读有关代理人所面临的技术挑战的更多信息。)
OpenAI计划中接管用户计算机的代理程序将需要用户的许可才能运行。为了以个性化的方式运作并像苹果的Siri在iPhone上那样快速响应,预期的OpenAI计算机使用代理程序可能需要部分存储在用户设备上。该公司还可能需要获得用户的许可,以便在个人数据上训练软件,例如个人的电子邮件和联系人,以及存储在诸如Word和Google Docs之类的商业应用程序中的信息。
相比之下,如今人们通过网站或移动应用访问ChatGPT,而所有的计算都发生在云端,具体来说是通过微软的Azure服务器。
OpenAI的代理产品已经开发了一年多,但目前尚不清楚其发布计划,不过一些员工暗示了它们的重要性。
上个月,据一位熟悉他工作的人士透露,OpenAI员工本·纽豪斯在X上发布了一则招聘信息,他正在为自己的团队招聘,并且正在开发一款可能会改变行业格局的零到一产品,利用了我们即将推出的最新模型的最佳特性。他没有详细说明。OpenAI的产品副总裁彼得·韦林德在X上评论说,纽豪斯描述的产品将会改变一切。
OpenAI有充分的理由迅速扩展ChatGPT的功能。预计谷歌将很快推出其最先进的旗舰版本LLM Gemini半岛bob综合登入,并推出付费版本以与ChatGPT的付费版本竞争。OpenAI在2022年底发布ChatGPT后,今年可能面临市场上没有最强大的LLM的可能性。代理和其他新功能可以帮助弥补这一点。ChatGPT是OpenAI快速增长收入的关键部分,并将帮助该公司筹集数百亿美元或更多资金,以开发能够处理大部分人类劳动的人工智能。
谷歌首席执行官桑达尔·皮查伊表示半岛bob综合登入,最新技术“使我们能够随着时间的推移更像是一个代理人。”
OpenAI最近的产品发布中透露了关于其代理人抱负的线月份为客户举办的活动中,OpenAI推出了其助手API,允许开发者在其应用程序中构建类似代理人的体验,可以生成图表,跟踪对话历史并从外部文档中检索信息。尽管这个工具允许开发者将他们的代理人连接到互联网或在指定的外部应用程序中执行操作,但它不会给予代理人对用户计算机的完全控制或理解能力。
接管人们计算机的代理程序需要比LLM驱动的对话型人工智能更多的技术,Adept的联合创始人兼首席执行官David Luan表示。这是因为LLMs往往会编造虚假信息,也就是所谓的“幻觉”,这对工作人员来说可能是灾难性的,他说道。而且,虽然像ChatGPT这样的聊天机器人可以连接到其他提供应用程序编程接口以执行代理操作的应用程序,但他说,许多企业应用程序(如Google Slides)缺乏API。计算机使用的代理程序可以填补这个空白,他说道。
“人们正在意识到LLMs在企业环境中本身并不那么有用,”曾在OpenAI担任工程主管并在此之前在谷歌开发大规模AI模型的Luan说道。他表示,“OpenAI试图‘克隆’我们只是时间问题。”
两岁的Adept已经从包括Greylock Partners和Nvidia在内的投资者那里筹集了4.15亿美元,该公司已经创建了能够理解人们在工作时出现在计算机上的文本、图像和网页的AI模型,Luan说。这些模型基于transformers,可以推断数据之间的关系,也可以为对话式AI提供动力。Adept的模型生成计算机可以执行的操作,而不是像对话式聊天机器人那样生成文本,他说。
Adept和OpenAI已经训练了他们的计算机使用代理模型,这些模型是基于人类使用计算机的示例进行训练的,包括他们如何处理不同类型的文档,如图表和PDF文件。
计算机使用的代理与销售机器人流程自动化的公司(包括UiPath和Automation Anywhere)不同,后者处理工人的琐碎任务,Luan说。他说,RPA软件通常需要开发人员手动编写完成任务所需的步骤半岛bob综合登入,而AI代理可以处理更复杂、结构不明确的任务,这些任务需要类似人类的判断,用户的指导很少。
技术专家多年来一直在讨论代理人。六年前,谷歌展示了一种代理人类型的软件,可以代表用户自动拨打电话给当地企业,安排预约。但就像谷歌在OpenAI之前几年犹豫不决地推出ChatGPT类型的聊天机器人一样,谷歌也从未推出电话代理人,部分原因是担心公众对该技术的强烈反对。然而,上周,谷歌首席执行官桑达尔·皮查伊表示,这种自动化即将到来,因为最新技术“使我们能够随着时间的推移更像一个代理人...甚至可能超越回答,为用户提供更多的跟进”。
微软在OpenAI上的130亿美元投资使其可以自由使用该初创公司的技术,已经在运行微软Windows操作系统的设备上迈出了代理式功能的初步步伐。例如,Windows 11 Copilot可以在用户的计算机上执行许多任务,如调低音量、显示正在运行的窗口或将文件移动到不同的文件夹中。目前,该功能远未达到自主性;在执行命令之前,它会向用户提供是或否的选择,并且无法处理跨不同应用程序的复杂多步操作。
微软的研究部门最近发布了开源软件,旨在帮助人们更容易地构建能够执行多步骤过程的自主人工智能代理,例如调试代码或在线论坛的管理。
稿件经采用可获邀进入Z Potentials内部社群,优秀者将成为签约作者,00后更有机会成为Z Potentials的早期共创成员。
我们将经认证真实身份的产品、技术和创业者邀请至对应的产品群、技术群和创业者群,若想加入认证实名群可以扫码填写问卷,经认证后邀请加入。