机器之心报道
参与:杜伟、一鸣
自 2014 年成立以来,艾伦人工智能研究所(AI2)就致力于研究和设计人工智能,并通过构建人工智能系统与推理、学习和阅读能力实现科学突破。 研究人员在该所成立后不久即开始研发 Aristo 系统。 现在,该系统已经能够阅读、理解初中八年级科学文本并通过初高中水平生物测试题了。
当地时间周三,西雅图艾伦人工智能研究所正式推出新 AI 系统 Aristo,该系统在八年级的科学测试中答对了 90%以上的问题,并在十二年级的测试中答对了 80%以上的问题。

AI做八年级试卷得90多分,艾伦研究所问答系统达


论文链接:https://arxiv.org/pdf/1909.01958.pdf
此外,据纽约时报报道,该系统有可能理解人类语言,模拟人类思维和决策制定行为。
那么,Aristo 系统在测试中能够答对哪些类型的问题呢?
Aristo: 可回答美国八年级测试单选题
Aristo 只用于单项选择题测试。 该系统参加了适用于纽约学生的标准化考试,但是艾伦研究所删除了所有包含图片和图表的问题,因为回答这类带图表的问题需要具备将语言理解和逻辑与计算机视觉知识结合起来的额外技能。
如下所示,这是一道属于八年级的生物单选题,只需要简单的信息提取即可答对。
问题 1: 一组共同发挥作用以执行特定功能的组织被称为:
(a)器官
(b)有机体
(c)系统
(d)细胞
不仅如此,下面一道同属于八年级的单选题考察了一定的逻辑能力,Aristo 系统也能够顺利作答。
问题 2: 以下哪种变化最有可能导致某一地区松鼠数量的减少?
(a)捕食者数量的减少
(b)松鼠族群间竞争的减少
(c)可获得食物的增多
(d)森林火灾的增多
如以上问题 2 所示,科学测试并不是简单的学习规则即可以顺利通过的,还需要利用逻辑进行关联性思考。 比如,森林火灾的增多可能会烧死松鼠或者减少松鼠生存和繁殖所需的食物链,从而减少松鼠数量。

AI做八年级试卷得90多分,艾伦研究所问答系统达


此外,如上图所示的 4 道选择题出自纽约州高中会考(NY Regents Exam),这类单选题需要常识和科学知识才有可能回答。
因此,由以上问题示例可知,Aristo 系统不仅具备了信息提取能力,还能够借助简单的逻辑思维回答一些稍复杂的问题。
Aristo 系统是怎样建立的?
Aristo 系统主要是基于预训练语言模型 BERT 构建的。 研究人员向 BERT 输入了大量的问题和对应的答案,使得 BERT 能够进行学习。 Aristo 的具体架构如下:
系统架构
系统一开始是由八个子模块组成的,基本上可以分成三类:
统计和信息提取
推理
大规模语言模型

AI做八年级试卷得90多分,艾伦研究所问答系统达


Aristo 系统的一个模块进行知识推理时的方法。
随着项目的进行,研究人员逐渐将研究精力投入语言模型模块的构建上,但是在系统最终集成时,他们会将八个模块集成为一个系统,使用集成模型进行推断。
在语言模型模块方面,研究人员主要使用了 BERT 作为语言模型。 在此,BERT 将单选题视为一个分类任务。 首先,研究人员将背景知识和对应的问题利用信息搜索的方法提取出来,并让 BERT 学习每个问题对应的知识。 之后,研究人员使用几个数据集中的教学大纲微调模型,包括了一些不属于科学知识领域的内容。 最终,研究人员将不同变体的 BERT 模型集成在一起。 具体流程如下:
模型首先学习基本的背景知识。研究人员提取最多 10 个句子作为某个背景知识的代表,根据 BERT 调整了句子最大长度。
研究人员用中学的教学大纲微调模型。研究人员在 RACE 训练集上进行了模型微调,这是一个英语阅读理解单选测试题,用于中国中学教学中。
进一步的,研究人员使用了多个科学领域的单选题数据集进行微调,包括纽约中学会考题等。
研究人员在发展集上进行最终的微调,并根据原始的 BERT 论文进行了超参数搜索。
研究人员在 BERT-base、BERT-large-uncased、BERT-large-cased 和全词 mask 的 BERT-large-cased 四种模型上进行了如上操作,并最终将这些模型集成起来。当然,他们也尝试了 RoBERTa 模型。

AI做八年级试卷得90多分,艾伦研究所问答系统达


一些中学会考题样本,包括食物链、图片、表格、图表、循环图、地图、流程图等方面的题目。
实验结果

AI做八年级试卷得90多分,艾伦研究所问答系统达


表 3:使用的数据集大小