所有文章 > 正文

AI联盟合作推出更严格的SuperGLUE语义理解基准

作者: Jansfer

时间: 2019-08-16 16:47

Facebook的人工智能研究中心与谷歌的DeepMind、华盛顿大学和纽约大学于8月14日合作推出了SuperGLUE。这是一系列用于衡量现代高性能语义理解AI性能的基准测试。

当然,SuperGLUE的前提是用于会话人工智能的深度学习模型已经达到了极限,并需要接受更大的挑战。SuperGLUE使用Google的BERT作为性能基准模型,早在2018年,它的许多方面都被认为是最先进的,甚至已经超越了今年的许多型号,如微软的MT-DNN、谷歌的XLNet和Facebook的RoBERTa,所有这些在一定程度上都是基于BERT完成的,并实现了高于人类基线平均值的性能。

SuperGLUE的前身是纽约大学、华盛顿大学和DeepMind研究人员于2018年4月对语义理解AI推出的“通用语义理解评估”(GLUE)基准测试。而SuperGLUE旨在评估比GLUE更复杂的任务,并鼓励建立能够掌握更复杂或细微差别的语言理解模型。

GLUE根据NLU系统对九个英语句子的理解任务上的表现,给出该模型的数值分数,例如斯坦福情感树库(SST-2),用于从在线电影评论的数据中提取情感。RoBERTa目前在GLUE基准测试数据库的得分排行榜上排名第一,但在9个GLUE任务中有4个拿到了最高分。

“SuperGLUE包含了在一系列困难的NLP任务中测试创造性解决方案的新方法,这些任务侧重于机器学习的一些核心领域的创新,包括高效采样、转移、多任务和自我监督学习。为了挑战研究人员,我们选择了各种任务,其有更多细微的问题,尚未使用最先进的方法解决,并且很容易被人们解决。”Facebook AI研究人员在博客中写道。

新的基准测试包括八项任务,用于测试AI语义理解模型是否遵循基本的因果关系,或是否在阅读理解时出现了偏差等。

SuperGLUE还包含Winogender,一种性别偏见检测工具。 SuperGLUE排行榜将在super.gluebenchmark.com在线发布。关于SuperGLUE的详细信息可以在5月份发布在arXiv上的一篇论文和在7月份的修订版论文中找到。

帖子上还写道,目前的问答系统主要集中在一些琐事的问题上,比如水母是否有大脑。这项新挑战更进一步,它要求机器对开放式问题作出详细的深入回答(例如,水母如何在没有大脑的情况下行动)。

为了帮助研究人员创建更强大的语义理解人工智能,纽约大学还发布了Jiant的更新版本,这是一个通用文本理解工具包。Jiant构建在PyTorch之上,配置为BERT和OpenAI GPT的HuggingFace PyTorch,以及GLUE和SuperGLUE基准测试。Jiant由纽约大学语言实验室的机器学习维护。

在最近的NLP新闻中,Nvidia分享了其GPU为BERT实现了最快的培训和推理时间,并培训了迄今为止由83亿个参数组成的最大的基于变压器的NLP。

参考来源:(venturebeat.com、zdnet.com)

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多