表 示 学 习
Representation Learning
目 录
表示学习概述
词向量表示学习
知识表示学习
网络表示学习
1
2
3
4
01 表示学习概述
表示学习
表示学习是指利用机器学习的方法将原始的数据转
换成能够被计算机识别处理的数学表达形式,并提取用于
后续分类或其他预测任务的有效信息。现实世界中的数据
往往复杂多变且冗余,数据表示的好坏直接影响到机器学
习系统的性能,有效地特征提取显得非常重要。
表示学习
语言具有高度抽象的特征,文本是符号数据,两个词只要字面不
同,就难以刻画它们之间的联系。
表示学习
传统的机器学习方法不能直接从数据中自动挖掘出有判别力的信息,
特征工程通过人类的智慧、知识和灵感来弥补机器学习方法的这一缺陷。
在自然语言处理领域,最常用的文本表示方法是词袋表示,该方法面临数
据稀疏的问题,并且不能保留词序信息。针对这些缺陷,还提出了词法特
征、句法特征等复杂的特征。借助这些人工精心设计的特征,机器学习在
自然语言处理领域逐步取代了以往基于规则的方法。
表示学习
深度学习是表示学习的一种。深度学习是人工神经网络的一个分
支,具有深度网络结构的人工神经网络是深度学习最早的网络模型。
通过对数据进行多层级的建模,从而获得数据特征的层次结构和数据
的表示。深度学习不需要繁杂的人工特征提取,能够有效利用无监督
数据并具有良好的泛化能力,是近几年机器学习领域的热点。在图像
处理、语言识别等多个应用领域都取得了突破性的进展。
表示学习
传统方法 VS 深度学习方法
(1)语言本身的高维特性,传统方法构造特征需要具备复杂的语言学知识。
而基于深度学习的方法通过神经网络模型,通过训练自动学习所需要的特征。
(2)可以轻易地获得大量无标签的数据,而有标签的数据数量少且昂贵。
深度学习的方法可以使用大量的无标签的数据来获取特征。
(3)自然语言处理相关任务具有较强的关联性,例如文本分类和文本摘要,
传统方法将不同的任务区分对待分别解决,忽视了他们之间的联系。使用深
度学习的方法可以在特征提取层面构建统一的模型,在考虑不同任务的关联
性同时提高任务的性能。