所有文章 > 正文

AI读心术!亚马逊的Alexa正通过声音预测人类情绪

作者: Jansfer

时间: 2019-07-11 16:55

早在2008年,为了帮助保护患有创伤后应激障碍的退伍军人,普拉萨德领导了美国国防高级研究计划局(DARPA)试图利用人工智能从退伍军人的声音中了解他们的心理健康状况。

2000年代中期,美军在伊拉克增兵,战争死亡人数超过自越南战争以来的任意一场战役的死亡人数。亲眼目睹过战场上尸横遍野的景象,越来越多活着回来的老兵自杀了。根据美国退伍军人管理局的全国自杀数据报告,退伍军人的自杀人数曾一度超过每年6000人。

退伍军人从伊拉克和阿富汗回国后自杀,这不仅是一个难以解释的悲剧,而且是一场公共危机。

如今,罗希特•普拉萨德(Rohit Prasad)以亚马逊Alexa 人工智能部门的首席科学家而闻名。Alexa 人工智能部门是一个用人工智能检测快乐、悲伤和愤怒等情绪的团队。早在2008年,为了帮助保护患有创伤后应激障碍的退伍军人,普拉萨德领导了美国国防高级研究计划局(DARPA)试图利用人工智能从退伍军人的声音中了解他们的心理健康状况。

除此之外,该项目通过观察非正式交流或其他模式,重点检测患有创伤后应激障碍(PTSD)、抑郁症或自杀风险的退伍军人声音中的悲痛。

普拉萨德上个月在亚马逊的re:Mars会议上接受采访时说:“我们一直在观察语音、语言、大脑信号和传感器,以确保士兵在回家的时候我们能够更早地接收到这些信号来拯救他们。它真的很难,因为这是一个有歧视的领域,是喧闹的,并没有简单的方法来诊断你经历这些事件。”

在这个项目中,DARPA与Cogito、美国退伍军人事务部(U.S. Department of veterans Affairs)等单位合作,当医生认为一名退伍军人的声音有问题时,就会向医生发出警报。

“这是DARPA的一个项目,团队内的心理学家们对这个问题非常感兴趣,这意味着我们有资金支持。”普拉萨德补充道,“这个项目的使命在于尽可能多地挽救生命,这是我不愿离开的原因之一。”

亚马逊的Alexa 人工智能团队目前正在试验检测快乐和悲伤等情绪的方法,这项工作已于今年早些时候发表在《Research》杂志上。据彭博社报道,亚马逊正在研发一款可穿戴的情感检测设备,人们可以通过它来了解周围人的感受。

Alexa的情商项目已经进行了多年。在2017普拉萨德年告诉VentureBeat,亚马逊开始探索用于情感识别的人工智能,但只能从用户的声音中发现挫败感。普拉萨德在最近的会议上同样守口如瓶。

“现在谈论它未来将如何应用还为时过早。我们已经在线下探索如何通过使用它对数据进行选择,但是现在我们在这一点上没有任何内容可以分享,”他说。

它是如何工作的?

最近几个月,亚马逊发表了两篇论文,从中可以看出亚马逊在情感检测领域的雄心壮志。

这两个项目使用的都是南加州大学(USC)的数据集训练模型。这些数据集包含男女演员朗读的约12小时的对话,然后对10000个句子的数据集进行注释,以反映情绪。

亚马逊Alexa高级应用科学经理Chao Wang称“情绪识别的多模态和多视图模型”为六大类:愤怒(anger)、厌恶(disgust)、恐惧(fear)、快乐(happiness)、悲伤(sadness)和惊喜(surprise)。

Wang说:“情感可以通过三个维度的数值来直接描述:价电子(valence)—即情感的积极(或消极),激活(activation)—即情感的能量,然后是主导(dominance)—即情感的控制影响。”

这项工作用多模态方法分析声音和词汇信号,从音频检测情绪。亚马逊Alexa的高级应用科学家Viktor Rozgic解释说,声学研究语音和语音特性,词汇则研究单词序列。

“声音特征或多或少地可以描述人的说话风格,而词汇特征则描述了说话内容。从实例中可以看出,它们与情感都有很重要的联系。因此在提取声音特征后,它们会被输入一个模型,然后我们最终做出预测并判断愤怒、悲伤和中性的情绪状态。”他说。

2019年计算语言学协会(ACL)接收《情绪识别的多模态和多视图模型》“Multimodal and Multi-view Models for Emotion Recognition”并出版。

亚马逊最近分享的另一篇论文 《通过潜在变量的变分推断来改进情绪分类》“Improving Emotion Classification through Variational Inference of Latent Variables”解释了一种可以略微提高预测情绪效价的方法。

为了从音频记录中提取情感,语音记录中的人类互动被映射到一系列光谱向量,并反馈给一个递归神经网络,然后用分类器来预测愤怒、快乐、悲伤和中性状态。

Rozgic说:“我们将声音特征输入编码器,编码器将这些特征转换成更低的维度,解码器将根据这些特征重建原始音频并预测情绪状态。在这种情况下,它有三个层次的效价:消极的、中性的和积极的,而对抗性学习的作用是以特定的方式规范学习过程,让我们学得更好。”

在今年春天的2019年声学、语音和信号处理国际会议上,科研人员提出“通过潜在变量的变分推断来改进情绪分类”的观点。

Rozgic, Prasad等人在2012年国际言语交际协会Interspeech会议上发表的研究也依赖于声学和词汇的特征。

情感和机器智能的进化

除了提供亚马逊情感探测的详细信息,re:Mars的一次会议探讨了情感识别和情感表征理论的历史,Wang称这是由南加州大学信号分析与解释实验室和麻省理工学院媒体实验室等学校领导的情感识别研究基金会提供的支持。机器学习、信号处理和支持、向量机等分类器的进步也推动了这项工作的进展。

Wang说,该技术的应用范围从评估反应到视频游戏设计、广告等营销材料,甚至帮助学生使用计算机辅助学习。此外,这项技术还可以帮助人们更好地理解他人的情绪。

尽管已经取得了一些进展,但Wang表示,情绪检测工作仍在进行中。Wang说:“在这个领域有很多数据和解释的不确定性,这为机器学习算法实现高精度带来了极大的挑战性。”

参考:https://venturebeat.com/2019/07/08/amazons-alexa-may-soon-know-if-youre-happy-or-sad/

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多