所有文章 > 正文

人类和AI合力改进clickbait的检测

作者: Jansfer

时间: 2019-08-30 18:02

宾夕法尼亚州立大学(Penn State)和亚利桑那州立大学(Arizona State University)的研究人员表示,人类和机器共同协助训练的一种人工智(AI)模型,其性能优于其他clickbait检测器。

人类和ai合力改进clickbait的检测1.png

图片来源:CC0 Public Domain

此外,基于人工智能的新的解决方案还能够分辨机器或机器人生成的clickbait标题与人所编写的标题之间的区别。

在一项研究中,研究人员被要求编写他们自己的clickbait,一个有趣但有误导性的新闻标题,旨在吸引读者点击其他在线故事的链接。研究人员还对机器进行编程以生成人工点击。然后,还利用人和机器制作的标题作为数据,训练点击检测算法。

研究人员于8月28日在加拿大温哥华举行的IEEE / ACM社会网络分析进展国际会议(ASONAM)上发布了他们的研究结果,研究结果表明,由此产生的算法预测clickbait头条新闻的能力比其他系统高出约14.5%。

该项目的首席研究员,信息科学与技术学院的副教授Dongwon Lee表示,除了在clickbait检测中的应用外,该团队的方法可能有助于提高机器学习性能。Lee还是宾夕法尼亚州立大学网络科学研究所(ICS)的成员,该研究所为宾夕法尼亚州立大学的研究人员提供超级计算资源。

“这个结果非常有趣,因为我们成功地证明了机器生成的clickbait训练数据可以反馈到训练中,用以训练各种各样的机器学习模型,从而提高其性能。这是迈向解决监督机器学习的基本瓶颈的一步,需要大量高质量的培训数据。”,Lee教授说。

根据宾夕法尼亚州立大学信息科学与技术学院的博士生Thai Le的说法,clickbait检测发展面临的挑战之一是缺乏标签数据。就像人们需要教师和学习指南来帮助他们学习一样,AI模型也需要标记的数据来帮助他们学习如何建立正确的联系。

“当我们开始这个项目时,意识到的一件事就是我们没有更多积极的数据点。为了识别clickbait,我们需要让人类标记训练数据,增加更多积极的数据点,以便日后可以训练出更好的模型。”,Lee说。

根据S. Shyam Sundar,James P. Jimirro媒体效应教授和Donald P媒体效果研究实验室联合主任的说法,在互联网上查找clickbait很容易,但clickbait的多样式变化却又增加了难度。

“有些clickbaits是列表,有些clickbaits被表述为问题,有些是以who-what-where-when开头的,还有多年来我们在研究中发现的各种其他clickbait变体。因此,找到所有这些类型的clickbait样本是一个挑战。即使我们都在抱怨clickbaits的数量,但当花时间去获取并标记它们时,才发现并没有多少这样的数据集。”,Sundar说。

研究人员称,这项研究揭示了人和机器在创造新闻标题方面的差异。与机器生成的clickbait相比,人们生成的标题往往会有更多的限定词,如“哪个”和“那个”。

培训似乎也导致了clickbait创建的差异。例如,训练有素的作家,如记者,比其他参与者更倾向于使用更长的单词、更多的代词,而且记者也可能用数字开头做头条新闻。

根据Sundar的表述,研究人员计划利用这一结果指导他们研究更强大的假新闻检测系统,以及其他应用程序。

“对我们来说,clickbait只是构成虚假新闻的众多要素之一,但这项研究是确保我们建立一个良好的clickbait检测系统的有效准备步骤,”,Sundar说。

为了找到适合该研究的人类点击作者,研究人员从在线众包网站亚马逊土耳其人招募了125名新闻系学生和85名工人。这些参与者先阅读clickbait的定义,然后被要求阅读一篇约500字的短文,最后为短文写一个clickbait标题。

机器生成的clickbait标题是使用称为变分自动编码器或VAE生成模型的机器学习模型开发的,该模型通过概率查找数据中的模式。

研究人员使用Clickbait Challenge 2017(一种在线点击检测竞赛)的顶级系统测试了他们的算法。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多