京都大学生命科学研究科本田直树教授、信息学研究生院(现为Preferred Networks Co., Ltd.)硕士生山口正一郎和石井伸教授的研究组是行为策略基于动物行为数据。除了设计一种机器学习方法来澄清上述问题外,我们将该方法应用于线虫,并在与名古屋大学研究生院理学研究生院 Ikue Mori 教授的联合研究中证实了其有用性。
根据京都大学的说法,人类和动物根据情况采取行动策略,以获得食物和金钱等某种奖励。然而,由于一些奖励并没有伴随实际情况,因此仅通过观察自由移动的动物很难知道什么是奖励。
因此,研究小组将重点放在线虫的温度趋向行为上。当线虫通过在恒定温度下充分喂食而生长时,它会记住其生长温度并在温度不均匀的空间中向生长温度移动。相反,当它在恒温下经历饥饿状态而没有食物的情况下生长时,它具有试图逃离生长温度的特性。
该研究小组设计了一种机器学习方法(反向强化学习方法),可以从测量的时间序列数据中估计未知的奖励。对线虫行为时间序列数据的分析表明,在食物充足的情况下生长的线虫具有向生长温度有效移动或在相同温度下沿等高线移动的特性。
此外,作为基于估计奖励的线虫行为的计算机模拟的结果,线虫的温度趋向行为被再现。该研究小组希望这种方法能够推进迄今为止尚未阐明的动物行为策略的研究。