由东北大学研究生 Yukisumi Ushi 和 Akinori Ito 教授领导的研究小组开发了一种新的对话式人工智能 (AI) 方法,使系统更智能地执行人们要求的任务,例如机票预订。 AI本身会随着系统学习而获得奖励,并具有探索新情况的“好奇心”,从而实现高效对话。
使用自然语言的对话式人工智能技术(例如 ChatGPT)近年来发展迅速,并被用于聊天机器人等各种系统中,以实现日常任务的自动化和简化。然而,当前的对话式人工智能并不总是足够有效地完成任务,例如提出不必要的问题。
强化学习也用于将棋和围棋的人工智能中,是一种允许对话系统适当运行的系统开发方法。在这项研究中,我们向强化学习引入了“好奇心驱动的搜索方法”。这是一种机制,允许系统在尝试新响应时通过给予“好奇心奖励”(反馈)来主动探索新的响应方式。
此外,我们准备了多个候选智能体(机器人等行为主体),并采用一种机制从其中选择行为最平衡的智能体。我们还引入了一种机制,如果训练后半段性能恶化,则更换代理。结果,我们能够提高通过对话完成任务的成功率,也成功地减少了完成任务所需的对话次数。
这项研究的结果将提高聊天机器人完成任务(接待、指导、预订等)的性能,并且能够在简短的对话中完成任务,同时返回适当的响应。