做者:Xikun Zhang(斯坦福计算机科学 Ph.D.)译者:张雨佳原文:Do Language Models Know How Heavy an Elephant Is?
一头大象有多重?一个成婚戒指有多贵?
人类对差别对象的比例,或者那些数字属性的合理范畴有相当好的标准感,但是预训练语言暗示能够做到吗?
虽然像 BERT 如许颠末预训练的语言模子已经在各类常识(包罗事实性常识)方面展现了不凡的进修才能,但目前,尚不清晰它们的暗示能否能够在不需要明白显示训练数据的情况下,零丁从文本中捕捉到那类数字属性。
在比来的论文Do Language Embeddings Capture Scales?
中,我们丈量了几种预训练文本暗示法捕捉标准信息的数量,并表白,固然那些办法凡是能够捕捉大量信息,但它们当前表示出来的性能与理论上限之间仍然存在很大的差距。我们明白指出了哪些文本暗示是上下文相关的,而且关于捕捉标准信息并停止数值推理的效果较好。我们还提出了一个 BERT 的新版本 ——NumBERT。通过用科学符号取代预训练文本语料库中的数字,使其更容易将量级 / 规模如许的概念 表露 给模子,改良其数值推理才能,而且还证了然 NumBERT 暗示比先前所有的文本暗示办法捕捉标准的才能都要好。
Scalar Probing为了领会预训练后的文本暗示(如 BERT)在多大水平上能够捕捉标准信息,我们提出了一项标准探究(Scalar Probing
)使命:预测对象的标准属性值散布的才能。在那项工做中,我们出格存眷三种标准属性:重量、长度和价格。
下面是标准探究使命的根本架构:
该例中,我们试图通过一个预训练好的编码器提取 狗 的暗示信息,并通过线性模子来预测或恢复狗的体重散布。我们摸索了三种语言暗示的基线模子:Word2Vec、ELMo 和 BERT。因为后两种都是对句子而非单词停止操做的上下文暗示,因而我们输入的是利用固定模板构建的句子。例如,我们利用 The X is heavy 做为重量的模板,此中 X 是感兴趣的目的。
我们摸索了预测点估量值和预测完好散布那两品种型。为了预测点估量值,我们利用一个训练过的尺度线性回归(记做 rgr)来预测每个对象标准属性中位数的对数值。对对数值停止预测是因为我们关心的是一般的标准信息,而不是切当的值。Loss 值是通过计算预测值和实在散布中中位数的对数值得到的。为了预测完好散布,我们利用一个线性分类器 Multi-Class Classifier(记为 mcc)产生了一个 12 个数量级的类别散布。利用 NumBERT(改良的 BERT 版本,下文将详细介绍)对类别散布停止预测,成果见上述示例中的橙色曲方图。
我们利用的实在散布来自于 Distributions over Quantities(DOQ)数据集,它从大型在线文本语料库中主动提取,包罗超越 35 万个名词、描述词和 10 个以上差别属性的动词。不外在构建数据集时,要将每个属性的所有单位同一到一种单元(例如将厘米 / 米 / 公里同一到米),并响应地对数值停止缩放。我们将 DoQ 中每个目的 - 属性对的集合转换为一个超越 12 个数量级的类别散布。在上面的示例中,狗体重的实在散布显示为灰色曲方图,能够看到体严重概集中在 10-100kg。
对所有目的 - 属性对停止预测时的性能越好,预训练暗示对响应的标准信息编码就越好。
NumBERT
在查看那些差别语言模子的标准探究成果之前,让我们想想哪种暗示可能拥有比力好捕捉标准信息的才能,以及如何才气进步现有语言模子,使其更好地获取标准信息。那些模子都是利用大型在线文本语料库(例如维基百科,新闻等等)停止训练的,所以它们是若何暗示从文本中获取的标准信息呢?
那有一段文字是我在谷歌上搜刮 大象体重 的时候出来的:
... 非洲象的体重从 5000 磅到超越 14000 磅不等(6350 千克)...
所以,标准的进修在必然水平上很可能是从数字(好比 5000,14000 等)向名词(好比大象)和计算才能的转换实现的。即理解推理数字的才能可能对暗示标准十分重要!
然而,前期工做表白,现有的预训练文本暗示都不擅长数字推理,包罗 BERT,ELMo 和 Word2Vec。若是超越了 500 那个数量级,它们以至无法通过 word embedding 编码成数字。例如对(710)无法嵌入编码成 710。因而,我们建议将语言模子训练数据中的数字实例改用科学符号暗示,并从头对 BERT 停止训练(即 NumBERT),以改良模子的数字推理才能。那种办法能够使模子更容易将句子中的目的间接与以指数表达出的大小相联络,从而忽略相对不重要的尾数。
研究成果
上表展现了在 DoQ 数据上对标准探究的成果。我们利用了三个评价目标:准确率、均方误差(MSE)和 Earth Mover’s distance(EMD,间隔度量),并在 4 个范畴停止尝试:长度、量量、价格和动物量量(量量的一个子集)。MSE 和 EMD 那两个目标的更好评价是 0,而准确率需要我们通过在实在数据散布中采样并对模子停止评估,来计算一个宽松上限。好比在长度探究中的准确率上限为 0.570,量量上是 0.537,价格上是 0.476。
我们计算了训练集中所有物体在柱状图上的经历性散布,并做为测试集物体的预测散布,得到每个属性的 baseline。与该 baseline 比拟,我们看出 mcc 只要更好文本暗示获取模子的一半(用准确率评价时),和与上述提到的上限的三分之一(用 MSE 和 EMD 评价)。那表白固然存在大量的标准信息,但要让模子具有可靠的常识推理才能,还有很长的路要走。
详细来说,NumBERT 办法在 EMD 目标上不断优于其他所有办法,而因为 EMD 有较好的收敛性而且能够匹敌数据散布中的扰动,所以是一个更具鲁棒性的度量尺度。Word2Vec 的性能明显不如上下文暗示,以至是无上下文的使命(因为在我们的设置中,一个物体在差别的上下文中是一样的实在标签)。此外,虽然鄙人游的天然语言处置使命上 ELMo 没有 BERT 好,但它在标准探究方面做得更好,那与其具有字符级的标识表记标帜所以在算数方面更好的成果相一致。
Zero-shot 迁徙
我们留意到 DoQ 是从在线文本中派生出来的,包罗噪声。所以我们在包罗标准属性实在标签的两个数据集上对 DoQ 停止训练评估:
VerbPhysics 和 Amazon Price Dataset。第一个数据集是报酬打标的相对数据集(例如人,狐狸,重和大)。对该使命的预测是通过比力 rgr 的点估量和 mcc 的更高分区间来实现的。第二个数据集是亚马逊商品的价格统计散布,我们对 DoQ 价格的查询拜访停止从头训练,以撑持更细粒度的预测。
成果显示在上表,关于 VerbPhysics 数据集,rgr+NumBERT 的性能更好,接近了以 DoQ 的性能,虽然很少有针对该使命的模子。用 mcc 训练的标准探究较差,可能是因为预测散布的细粒度模子关于三类比力的使命不适用。
在 Amazon Price Dataset 数据集(下表)上的全散布预测使命,mcc+NumBERT 在所有散布目标上都到达更优。在那两个 zero-shot 迁徙使命上,NumBERT 在所有目标和目的上都表示更好,意味着对预训练语料库中数字暗示的文本停止处置,能够显著进步标准预测的性能。
将来前景
在上述工做中,我们引入了一个名为标准探究的新使命,用来确定预训练过的文本暗示能够捕捉几目的的数字属性信息。而且发现固然目的暗示中存在大量的标准信息(理论上限的一半到三分之一),但现有模子远没有到达常识标准的理解。我们还提出了一个改良的 BERT 版本,叫做 NumBERT,它捕捉标准信息的才能比之前所有的都好。
标准探究开拓了一个新的可供摸索的范畴。例如,有许多工做已经预训练了大规模的视觉和语言模子,好比 ViLBERT 和 CLIP。研究那些暗示能够捕捉几标准信息,并将它们与仅由单语言模子进修到的暗示停止系统比力长短常有趣的。
并且,进修能够更好预测标准的文本暗示模子会对现实世界有庞大的影响,例如在网页上查询:
世界上更高的建筑有多高?
有了对 建筑 合理高度范畴的常识理解,我们就能够检测出当前网页上检索或解析时 QA 系统呈现的错误。例如,维基百科对一座建筑的句子错误地解析为 19 英里而不是 19 米。