所有文章 > 正文

回顾先后序关系学习相关综述

作者: 潘亮铭

时间: 2019-07-02 16:26

先后序关系是广泛存在于人们的学习、 组织、应用和产生知识过程中的认知依赖关系。这种认知依赖存在于不同粒度的 学习对象之间。从宏观到微观,教育学中的先后序关系可以分为课程、知识点、概念三个不同粒度。

课程之间存在先后序关系,例如需要先学习概率统计的相关知识才能进一步学习机器学习;知识点之间也存在先后序关系,例如需要首先了解三角形的定义才能进一步学习三角形内角和定理;概念之间同样存在先后序关系, 这也是本文主要研究的内容。目前,先后序学习的相关工作从研究对象上可以分为维基百科中的先后序关系学习和科技文本中的先后序关系学习。目前还没有专门针对大规模开放在线课程的先后序关系学习工作,本文的研究填补了这一空白。 下面,本文详细介绍以上两类先后序关系学习工作。


维基百科中的先后序关系学习

维基百科是目前全球规模最大的开放在线百科全书,包含超过500万文章,其中也包含大量的描述科学技术概念的文章。理论上这些科技文章可以方便地让人们查阅、了解和学习各类科学概念;但在实际使用中,这些文章的可理解性并不强,这主要源于知识间普遍存在的先后序关系。想了解一个科学概念,光查阅此概念的维基百科是远远不够的,而是需要以合理的学习路径依次查看此概念的先序概念的维基页面。但是,维基页面间的先后序结构很难被明确给出。针对这一挑 战,Talukdar 和 Cohen[31] 首次提出了维基百科文章间的先后序关系学习问题。该问题被形式化为一个二分类问题,给定任意的维基文章对 (d, d),训练二分类器判 断 d 是否是 d的先序文章。Talukdar 和 Cohen 使用了最大熵分类器,并定义了一 些维基相关的特征对分类器进行训练。他们认为维基百科文章间的超链接是判断它们之间是否存在先后序关系的重要特征。例如后序的维基概念在其页面中经常引用先序的维基概念,并通常有超链接指向。基于这一观察,该文章定义了许多与维基超链接相关的特征,如 d d的超链接数,d d的重置随机游走(RWR) [32] 分数。给定任一维基文章对 x = (d, d) 作为输入,采用基于最大熵的分类器判别 d 是否是 d 的先序,分类器形式化定义如下:

Talukdar 和 Cohen 采用了众包的方式构建了来自 5 个不同领域的评测数据集。 他们选择了维基百科中的 5 个主题,分别是“全球变暖”、“减数分裂”、“牛顿运动定律”、“平行公设”和“公开密钥加密”。对于每一个目标主题,从维基百科文章相互链接组成的链接图中使用 PageRank 算法分理出与该主题相关的子图,最后从该子图中存在的所有可能的存在超链接的文章对中随机选择 400 个文章对。对每一个文章对,Talukdar 和 Cohen 采用众包的方式对该文章对是否存在先后序关系进行标注。他们的工作为后续维基百科中的先后序关系学习研究奠定了数据集 的基础。


Liang 等人[33] 从另一个角度研究了维基百科文章间的先后序关系发现。他们观察发现如果维基文章 A 中大量引用了维基文章 B 的相关文章,但反过来维基文章 B 中很少引用维基文章 A 的相关文章,则 B 很可能是 A 的先序文章。图 2.1举例说明了这一特性。在该图中,“算法”是“数据挖掘”的先序文章,可以发现“数据挖掘”的许多相关维基概念,如“统计学”、“聚类分析”以及“机器学习”等都包含到“算法”的超链接。

相反地,“算法”的相关维基概念,如“逻辑”、“伪代码”等概念的维基页面中均没有到“数据挖掘”的超链接。基于这一发现,Liang 等人定义了引用距离(Reference Distance,简称 RefD)指标,量化地度量两篇维基文章满足以上规律的程度,形式化定义如下:

其中 ci 为概念 A 或概念 B 的相关维基概念,r (ci, A) 判断概念 A 对应的维基页面是否有到 ci 的超链接,而 w (ci, A) 度量 ci A 的相关程度。该方法虽然省去了训练过程,但在 Talukdar 和 Cohen 构建评测数据集上的表现反而更优,充分说明了引用距离指标的有效性。

科技文本中的先后序关系学习

相比于维基文章间的先后序关系学习,科技文本中先后序关系学习的难度更 大,其目标是学习科技文本中标注出的科学术语间的先后序关系。该研究方向较新,相关的研究工作并不多,主要有如下四个代表性工作。


Liu 等人[34] 提出在科技文本中学习知识单元(Knowledge Units)间的先后序 关系。一个知识单元是一个最小单位的完整知识对象,定义、定理、规则和算法均为知识单元。知识单元间存在明显的先后序关系,例如“三角形的定义”是“三角形内角和定理”的先序知识单元。Liu 等人将该问题形式化为一个二分类问题:给定一对知识单元,通过三个特征判断它们是否具有先后序关系。这三个特征分别是词频特征、位置特征和类型特征。词频特征基于知识单元的分布不对称性假设, 即先序知识单元在后序知识单元的文档中会经常出现,但反之后序知识单元在先序知识单元的文档中不会经常出现。位置特征基于知识单元在文档中出现的位置,后序知识单元的出现位置通常靠后,而先序知识单元的出现位置通常靠前。类型特征基于知识单元的类别关系,通常定义是定理的先序知识单元,则该方法会给予这种组合更高的得分。


Yang 等人[35] 提出利用课程的先后序关系来帮助推断概念的先后序关系,将问题形式化成矩阵优化问题。给定课程-课程先后序关系矩阵以及课程-概念矩阵, 训练得到最优的概念-概念矩阵,该矩阵即反映概念间的先后序关系。图 2.2给出了该方法的主要思路。课程-概念矩阵通过课程概念在每门课程中各自所占的权重进行度量,图中边的颜色深浅反映了特定概念对特定课程的重要程度。给定先序课程-概念矩阵以及后序课程-概念矩阵,定义目标函数并采用矩阵优化的方法得到最优的概念-概念矩阵(图 2.2的中间部分)。概念-概念矩阵反映了概念间的先后序关 系,但 Yang 等人定义的“课程概念”是隐含的,即学习得到每门课程的低维向量表示,该向量的每一维度即为一个“课程概念”,其值反映了该“课程概念”对该课程的权重。因此,通过该方法得到的概念先后序关系是隐含的,不具有明确的可解释性。



Gordon 等人[36] 则提出利用交叉熵学习科技语料中的概念先后序关系。Wang 等人[37] 综合了以上方法中使用的各方面特征,提出了将科技概念抽取任务和概念先后序关系学习任务相互迭代、互相提高的学习框架。该方法定义了 6 个维基百 科相关特征和维基百科无关特征用于先后序关系学习,并取得了目前最优的效果。 尽管存在以上代表工作,大规模在线教育平台中的概念先后序关系学习依旧是一个新的挑战,这主要源于 MOOC 平台中课程概念的多元性和 MOOC 课程结构的复杂性。本文第一个系统地研究 MOOC 中概念的先后序学习,并提出了有效的解决方案。

[33] Liang C, Wu Z, Huang W, et al. Measuring prerequisite relations among concepts. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, September, 2015. 1668–1674.

[34] Liu J, Jiang L, Wu Z, et al. Mining learning-dependency between knowledge units from text. The VLDB Journal, 2011, 20(3):335–345.

[35] Yang Y, Liu H, Carbonell J G, et al. Concept graph learning from educational data. Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, WSDM 2015, Shanghai, China, 2015. 159–168.

[36] Gordon J, Zhu L, Galstyan A, et al. Modeling concept dependencies in a scientific corpus. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016.

[37] Wang S, Ororbia A, Wu Z, et al. Using prerequisites to extract concept maps fromtextbooks. Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, CIKM 2016, Indianapolis, IN, USA, 2016. 317–326.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多