所有文章 > 正文

自动化医疗决策迎来突破!MIT开发出自动识别声带结节患者的模型

作者: Jansfer

时间: 2019-08-07 16:24

在实验中,该模型与需要手动特征工程的最先进模型一样精确。重要的是,研究人员的模型在训练和测试中都能准确地进行,表明它是从数据中学习临床相关模式,而不是从特定受试者的信息中学习。

图|麻省理工学院开发的新模型,能够自动识别声带结节患者的发声模式,进而利用这些特征判断患病人群(图片来源:MIT)

麻省理工学院(MIT)的计算机科学家们开发的新模型,通过自动化解决了将人工智能用于医疗决策的关键一步。通常,专家们只能人工手动注释大量患者数据中的重要特征,随着数据集越来越大,这一步也变得更难于操作。因此,该自动化模型将加速人工智能在改善医疗决策方面的应用。

预测分析领域在帮助临床医生诊断和治疗患者方面,发挥着越来越大的作用。机器学习模型可以通过训练在患者数据中寻找对应的模式,从而帮助进行败血症的护理,设计更安全的化疗方案,并预测患者患乳腺癌或死于ICU的风险等。

通常,训练数据集由众多患者和健康的受试者组成,但每个受试者的数据相对较少。专家必须在数据集中找到对预测非常重要的方面或特性。

这种“特征工程”(feature engineering)将是一项费力又昂贵的过程。但随着可穿戴传感器的兴起,它变得更具挑战性,因为研究人员更容易长期监测患者的生物特征,比如跟踪睡眠模式、步态和言语。仅仅经过一周的监测,专家就可以为每个研究对象收集到数十亿个数据样本。

本周,麻省理工研究人员在“医疗机器学习”(Machine Learning for Healthcare)大会上发表的一篇论文中,展示了一个自动学习声带疾病特征的模型。这来自大约100名受试者的数据集,每个受试者都有大约一周的语音监控数据和数十亿个样本(换句话说,每个模型都只有少量受试者,但却有大量数据)。数据集包含从安装在受试者脖子上的小型加速度计传感器捕获的信号。

实验中,该模型从这些数据中自动提取目标特征,并对具有和不具有声带结节的患者进行高精度分类。这种病变发生在喉部,通常是由滥用声音造成的,如大声唱歌或大喊大叫。重点是,该模型在没有大量手工标记数据集的情况下完成了这项任务。

该研究的主要作者、麻省理工学院计算机科学与人工智能实验室(CSAIL)的博士生Jose Javier Gonzalez Ortiz说:“收集长期时间序列数据集变得越来越容易。但医生却还需要运用他们的知识来标记数据集,同样为了简化这一过程,我们希望去掉专家手动标注数据集这一步,把将所有的特征工程转移到机器学习模型中。”

该模型可用于学习任何疾病或情况的模式。但是,研究人员表示,检测与声带结节相关的日常声音使用模式的能力是开发预防、诊断和治疗该疾病的改进方法的重要一步。这可能包括设计新的方法来识别和警告人们可能有害的发声行为。

该论文的其他作者包括:计算机科学和电子工程Dugald C. Jackson教授,也是CSAIL s数据驱动推理小组的组长John Guttag;麻省总医院喉部手术和声音康复中心的Robert Hillman,Jarrad Van Stan,Daryush Mehta,以及多伦多大学计算机科学和医学助理教授Marzyeh Ghassemi。

强迫性特征学习

多年来,麻省理工学院的研究人员一直与喉部手术和声音康复中心合作,开发和分析来自传感器的数据,以便跟踪受试者在清醒的时间里的声音使用情况。这种传感器是一个加速度计,其节点固定在颈部,并连接到智能手机上。当人们谈话时,智能手机从加速度计中的位移收集数据。

在该研究中,研究人员对104名受试者进行了为期一周的数据收集,其中一半被诊断出患有声带结节。对于每位患者,也有一个匹配的对照组,即具有相似年龄、性别、职业及其他相似因素的健康受试者。

传统上,专家需要手动识别可能对模型检测各种疾病或情况有用的特征。这有助于防止医疗保健中出现常见的机器学习问题:过度适应。即在训练中,模型会记住受试者的数据,而不是仅学习与临床相关的特征;在测试中,这些模型往往无法识别出之前未见过的受试者中的相似模式。

“这根本不是学习具有临床意义的特征,而是当一个模型看到了模式后说,‘这是Sarah,我知道Sarah很健康;这是Peter,他有一个声带结节。’所以,它只是记住受试者的模式。然而当它看到Andrew的数据时,由于拥有一个新的声音使用模式,它无法弄清楚这些模式是否与分类匹配,故无法识别。”Gonzalez Ortiz说。

因此,主要的挑战是在自动化手动特征工程的同时防止过度拟合。为此,研究人员强迫该模型在没有受试者信息的情况下学习特征。对于其任务来说,这意味着捕捉受试者说话的所有时刻以及他们的声音强度。

当他们的模型在受试者的数据中使用时,它被编程为定位发声段,这些片段仅包含大约10%的数据。对于每一个声音窗口,该模型计算频谱图(频谱图是随时间变化的频谱的视觉表示方法,通常用于语音处理任务),然后再将谱图存储为数千个值的大矩阵。

但是这些矩阵庞大且难以处理。因此,自动编码器,一种用于优化从大量数据生成有效数据编码的神经网络,首先将频谱图压缩成30个值的编码。然后,再将该编码解压为一个单独的频谱图。

基本上,模型必须确保解压缩的频谱图与原始输入频谱图非常相似。在此过程中,它被迫学习每个频谱图段输入到每个受试者的整个时间序列数据的压缩表示。压缩表示是帮助训练机器学习模型做出预测的特征。

映射正常和异常特征

在训练中,模型学会将这些特征映射到患者或对照组。患者比对照组具有更多的发声模式。在对先前未见过的对象进行测试时,该模型同样地将所有频谱图片段压缩成一组简化的特征。然后,根据多数规则:如果受试者的发声区段大多不正常,则将它们归类为患者;如果大多数是正常的,则被归为对照组。

在实验中,该模型与需要手动特征工程的最先进模型一样精确。重要的是,研究人员的模型在训练和测试中都能准确地进行,表明它是从数据中学习临床相关模式,而不是从特定受试者的信息中学习。

接下来,研究人员希望监控各种治疗,如手术和声带治疗如何影响发声行为。如果患者的行为随着时间的推移从异常变为正常,那么他们很可能会有所好转。同时还希望在心电图数据上使用类似的技术,用于跟踪心脏的肌肉功能。

参考:http://news.mit.edu/2019/automating-ai-medical-decisions-0806

https://techxplore.com/news/2019-08-automating-artificial-intelligence-medical-decision-making.html

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多