庆阳机械设备网

当前位置: 首页 >> 工程机械

机器看书已甩你几条街那只是指标上的胜利

2021年07月23日 庆阳机械设备网

机器看书已甩你几条街?那只是“指标”上的胜利

2017年由李飞飞团队创建的机器视觉领域鼎鼎有名的ImageNet视觉识别挑战赛走向谢幕。回顾往昔,ImageNet在2012年引爆了深度卷积神经网络,并继而在3年后推动谷歌、微软、百度等公司在图像识别领域超过人类!在图像识别领域,ImageNet可谓功不可没。

而如今在另一个数据集上,或许也正上演同样的故事。在2018年伊始,阿里巴巴和微软亚洲研究院相继刷新了斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛成绩,机器阅读理解评分超过人类!这意味着机器阅读理解的能力已经开始在“指标”上超越人类,又是否能够引领自然语言处理(NLP)领域的下一场革命?

近日,百度自然语言处理团队也拿下了微软MS MARCO(Microsoft MAchine Reading COmprehension)机器阅读理解测试首名。

百度在微软MARCO中获第一名

“自然语言处理是人工智能桂冠上的明珠”便反应了NLP发展之艰巨。而这些公司们陆续在NLP比赛上取得胜利,是否意味着机器阅读理解真的能够超过人类?我们采访了近10位NLP领域的资深人士,他们中既有NLP类创业公司的CEO/技术高管(如康夫子张超、思必驰葛付江、猎户星空闵可锐),又有大公司的技术负责人(如搜狗刘明荣、科大讯飞王士进)等。

通过沟通我们认识到,机器在阅读理解的评分上超过人类,也许是NLP发展历程上的一次重大突破,意味着机器在“指标”上对人类的胜利,机器也确实可以在限定场景下有超过人类的表现。但这终究是一场“指标”上的胜利,想要做到能理解会思考,机器还有“万里长征路”要走。

公开数据集掀起算法竞赛

在谈NLP发展现状之前,我们先看一下斯坦福的SQuAD和微软MS MARCO两个机器阅读理解数据集。

SQuAD是斯坦福大学于2016年推出的阅读理解数据集,也是行业内公认的机器阅读理解标准水平测试,该数据集包含来自维基百科的536篇文章及共计十万多个问题。在阅读数据集内的文章后,机器需要回答若干与文章内容相关的问题,通过与标准答案对比来获取得分。这个数据集有两个评判标准:EM(Exact Match)代表完全匹配,即机器给出的答案和标准答案一样才算正确;F1代表模型的整体性能。

在EM值上,人类在该项得分为82.304,而阿里和微软在前不久的得分中稍高于人类得分,分别为82.440和82.650,这也是为何阿里和微软称机器阅读理解得分超过人类。目前整体排名第一的是科大讯飞与哈工大联合实验室,EM得分为82.482,F1得分89.281。

微软MARCO也应用在机器阅读理解领域,是由10万个问答和20万篇不重复的文档组成的数据集。相比SQuAD,其最大不同在于数据集中的问题来自微软自家必应搜索引擎,根据用户在必应中输入的真实问题模拟搜索引擎中的真实应用场景。可以看出微软希望借此数据集提升用户获取信息方面的能力。

百度称,MARCO的挑战难度更大,它需要测试者提交的模型具备理解复杂文档、回答复杂问题的能力,百度之所以选择该数据平台,是更致力通过技术应用解决搜索中的实际问题。

可以看出,在机器阅读理解比赛中,百度、阿里、科大讯飞、微软等公司取得较为优异的排名,也体现出我国在NLP方面的研究在全球也处于前列的位置。这些阅读理解的数据集也使训练大规模复杂算法成为可能,各大公司通过数据集优化算法,从而解决自然语言实际问题,进一步推动自然语言处理的发展。

123下一页>

革新首届新电商营销峰会

GMC&亚马逊大卖家分享会

2019零售消费品行业CIO年会暨颁奖盛典