第八届泰迪杯挑战赛垃圾论文.pdf

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：0.71M 资料格式：pdf 举报版权申诉

weixin_42141390-16188152-16359647600716075795.pdf-第1页.png

第1页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第2页.png

第2页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第3页.png

第3页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第4页.png

第4页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第5页.png

第5页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第6页.png

第6页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第7页.png

第7页 / 共19页

weixin_42141390-16188152-16359647600716075795.pdf-第8页.png

第8页 / 共19页

内容简介

文本分类问题

特征工程

二元语法

词袋模型

卡方检验

文本分类模型的筛选

交叉验证与网格寻优筛选模型

模型及其参数的筛选结果与T检验

文本分类模型的训练

模型选择与分析

模型训练

算法的底层实现与操作简介

稀疏矩阵的存取

多分类与类别不均衡

网格寻优的具体操作

贝叶斯分类器的某些设置

参数寻优算法

文本聚类与热度算法

特征工程

条件随机场分词器

停用词过滤与命名实体合并

词袋模型与PCA降维

文本聚类

DBSCAN原理

文本聚类与热度排行

内容归纳与关键句提取

PageRank与TextRank

热点问题归纳

底层实现

关于匹配算法的查询优化

截断奇异值分解降维

DBSCAN调参过程

答复相关性与完整性分析

答复相关性评价

词向量与one-hot编码法

词向量与CBOW模型

答复相关度计算

答复的完整度与可理解性

答复评价模型

底层优化算法

双数组字典树

搜索算法的并行实现

结束语

笔者的话

本文的缺点与不足

后续工作与展望

附录A

T检验表

BP神经网络解决分类问题

附录B

各分词器在MSR语料库中的结果对比

关注度下跌函数细节

“智能政务”中的文本挖掘：原理、实现与应用摘要：本文主要讨论文本挖掘中的文本分类、热门问题挖掘以及文本相关性、完整性和可读性评价的原理、算法与实现。文章采用了二元语法、词袋模型、卡方检验的方法，结合机器学习实现了文本自动分类；为了挖掘热门问题，文章采用 DBSCAN 的方法对留言进行聚类，并通过留言的点赞数、反对数和时间跨度挖掘出热门问题；为了给答复打分，文章结合词向量和关键句提取算法，度量了答复的相关性。再根据二元语法与字典匹配，度量了答复的局部整体性与可读性。最后，结合两者即可评价留言答复的质量。为了贴近工程实际，在每个问题最后，文章列举了某些底层的优化实现。关键词：文本分类；机器学习；二元语法；词袋模型；文本聚类；词向量； Text Mining in Intelligent Government Aﬀairs Management: Principle, Implementation and Application Abstract The present paper is mainly about the principle and implementation on texts classiﬁcation, mining of hot spots as well as scoring of texts according their correlation, Integrality and readability. The paper adopts 2-gram, bag-of-words model and chi-square test to prepare the corpus. Then using machine learning algorithm, one could implement a classiﬁer of texts. To deal with the hot-spots mining, DBSCAN clustering is deployed to cluster similar texts as a class. Then coming up a scoring model based on the number of agrees, disagree and time span to decide the hot-spots. Eventually, to calculate the relevance among texts, this article uses key-sentence extracting and word2vec method to calculate the similarity of texts. To scoring the integrality and readability, 2-gram and dictionary matching is adopted. Thus a scoring model based on both is proposed. In order to go in line with practice, this article will present some low-level implementation and optimization method. key words: texts classiﬁcation;machine learning; 2-gram; bag-of-words; texts clustering; word2vec 练出一个能够自动分类的机器学习模型。为了实现这一点，本文在前人工作的基础上 [6]，使用效果极佳的二元语法以及卡方检验，从而将非结构的文本转换为结构化的特征向量。之后，文章从机器学习常用的模型之中，采用 K 折交叉验证、网格寻优的方法筛选出适合用于该问题的、常见的机器学习模型及其参数，如图1所示： 1 内容简介从文本中挖掘有效信息，是自然语言处理（NLP）领域的重要问题。一般地，基于规则的挖掘算法已经在 19 世纪 50 年代遭遇挫折。因此，在文本挖掘问题中，业界通常采用基于统计方法的机器学习，和隶属机器学习、使用神经网络模型的深度学习。前者一般需要一个手工特征模板，对数据进行预处理。后者则不然，其类似于“黑盒子”，通过神经网络节点的训练，即可自动地提取出信息。使用文本挖掘的方法，亦可以减轻网络问政工作人员的负担。在处理群众留言时，首先要对留言进行归类。这一点可以在已有的、分好类的留言详情语料库中，训 1

为了评价留言答复的相关性，显然需要判断答复与留言详情之间的相似度，并以此为依据度量相关性。因此，本文采用了词向量的方法，结合两者的关键句，找出了答复与留言的相似度，从而评价相关性。为了衡量留言的完整性与可读性，文章采用了二元语法匹配的方法。扫描留言答复的同时，在字典中匹配当前两个字符，从而一定程度上度量了答复的局部完整性、可读性。最后，综合上述因子，即可建立一个评分模型，对留言答复进行评分。文章在每一个问题最后，都或多或少地提及相应的底层实现和优化方法，使用它们将降低算法的复杂度和运算耗时。同时，在许多细节方面亦给出详细的处理方法。最后，文章总结所做的工作，提出了笔者对 NLP 领域的一些浅薄的见解。同时分析了文章的不足之处，和 NLP 领域有待解决的问题。 2 文本分类问题根据已经归类好的群众留言数据，对未知类别的留言进行分类显然属于一个文本分类问题。对于分类问题，使用机器学习的方法即可高效地解决。然而，要使用机器学习模型实现自动分类，首先需要将非结构化的文本数据转换成结构化的特征向量。考虑到留言语料库中留言详情所包含的信息量，远大于留言主题。且很明显，留言时间与文本的类别毫不相关1。因此，本文中的语料库均指所有留言的留言详情。本节将展示使用二元语法词袋模型，将非结构化的文本表示为向量。考虑到特征个数达到十万以上数量级，若直接投入机器学习模型的训练中，显然会造成“维度灾难”。为此，文章采用卡方检验的方法，从而过滤掉对分类结果影响不大的特征，从而进行特征降维。最后，文章将从多种常见的机器学习模型中，根据模型们在数据集中的表现，挑选出合适的模型及模型参数。 2.1 特征工程将语料库进行处理，从而转换为可供机器学习使用的模式即为特征工程，或数据预处理。对于本例中的文本分类任务，这里将结合卡方检测，使用二元语图 2. 问题二解题思路法词袋模型，对语料库进行预处理。对于样本的类 1笔者已将时间处理为精确到分钟有序序列，并通过单因素方差分析法，使用随机抽样（共 1000 个样本）证明了这一图 1. 问题一解题思路同时，在附录中额外给出了神经网络的训练过程与模型效果。之后，以 F1 值评价训练好的模型，并得出适用于文本分类的模型有：贝叶斯分类器、SVC 和逻辑回归。同时，进一步反映了神经网络无法提升文本分类效果这一论断。为了挖掘出热门问题，显然需要先对留言进行聚类，因此属于文本聚类的任务之一。考虑到二元语法得到的特征向量太过冗余，且聚类这种没有标签的无监督算法，无法采用卡方分布过滤特征。因此，本文采用条件随机场分词器，对留言详情构成的语料库进行分词。过滤掉停用词并在粗分的基础上进行合并后，再使用主成分分析法（PCA）对数据进行降维。之后，将预处理后的数据，使用自适应聚类算法 ——DBSCAN 进行聚类。从而将隶属与同一个问题的、相似的留言聚成一簇。之后，再根据留言的点赞数、反对数和时间跨度，建立一个问题的热度模型。最后，按照热度进行降序排序，即可找出 5 大热门问题。考虑到留言详情的字数较多，且有可能同一热门问题包含许多条留言。因此，本文还结合 TextRank 算法和 BM25 算法，提取出文本中的关键句。再根据关键句，人工归纳出热门问题的问题描述。总体的做法见图2所示。点 2

别，可以直接将其转换为 0 开始的有序整数。 2.1.1 二元语法为 An，事件“文档属于类别 c; c 2 f0; 1; ; 6g”为 Bc，则卡方检验在于验证 P (AnBc) = P (An)P (Bc) 是否成立。如上所述，为了将非结构化的文本转换为结构化的特征向量，本文将采用二元语法词袋模型下: 记卡方检验的检验统计量为 2，其计算公式如 ∑ ∑ (Nnc E2 nc) Enc (1) 2(n; c) = c n∈{fn; fn} 其中 Nnc 为特征 fn 在属于类别 c 的文档中出现的频数。Enc 为事件 An 和 Bn 同时出现的期望，可由如下式算出： Enc = N Nnc + Nnc N Nnc + Nnc N (2) 其中 ¯n; ¯c 表示逻辑非，N 为所有特征的频数, 即 N = Nnc + Nnc + Nnc + N nc。由于 2 服从卡方分布，根据所得值与卡方分布的表达式即可反推出概率 p 卡方检验的原假设为 P (AnBc) = P (An)P (Bc) 成立，即待检验特征 fn 对分类决策的帮助不大。取置信水平为 = 0:001, 也即检验犯一类错误的概率为 0:1%。于是，对语料库中的每一个特征，考虑将它们都进行卡方检验。若概率 p < , 则拒绝原假设，即认为该特征属于重要因子。反之，则接受原假设，此时即可将该特征删除。以附件 2 数据为例，其词袋模型的稀疏矩阵共有 396287 个特征。经过卡方检验的过滤后，降为 30291 个特征，压缩到原来的不到 10%。至此，数据预处理步骤结束 3。 2.2 文本分类模型的筛选得到数据矩阵后，就可以通过机器学习的方法，进行建模。所谓二元语法，即将连续的两个汉字（过滤掉标点符号、制表符、换行符等）视为一个特征。例如句子“第八届泰迪杯比赛。”，其二元语法为（“第八”，“八届”，“届泰”，...， “杯比”，“比赛”）。为了过滤掉标点符号，可以考虑使用正向最长匹配的方法2，将标点符号进行过滤。值得一提的是，将文本转换为特征向量可以考虑进行分词。然而根据郭志芃等老师的开源工作 [6]，这种将文本中相邻两个字符作为特征，反而能够取得更好的成绩。 2.1.2 词袋模型在许多外文文献中，也称词袋模型为 BOW。词袋模型将语料库（经过二元语法提取后）的所有特征，构成一个的向量，并作为每一句留言（文档）的特征向量。而文档中的特征向量的某个元素，其取值等于相应特征在文档中出现的频数。至此，就将语料库转换为一个稀疏的矩阵。 2.1.3 卡方检验由于词袋模型得到的往往是一个稀疏矩阵，若直接供给机器学习模型训练，势必会出现“维度灾难” 的问题。以示例数据为例，经过二元语法与词袋模型的处理后，语料库转换为 9210 396287 的畸形矩阵，即样本个体的特征个数近 40 万。但是，该矩阵中有绝大部分为 0 元素，换句话说，矩阵是稀疏的。另一方面，由于许多常用的单词对分类决策的影根据数据集训练出一个文本分类模型了。由于汉语言响不大，比如停用词和表述词等。再者，许多单词在所有类别的样本中均频繁出现。因此，为了消除这些影响因素，这里考虑采用卡方检验的方法，过滤掉这些用处不大的特征。处理文献较为缺乏，本文将从常见的机器学习模型中，筛选出最适合进行文本分类的模型。在附录 A 中，文章使用了 BP 神经网络进行文本分类，并发现其较之普通机器学习而言，效果反而更差。因此本文类似于单因素方差分析，卡方检验通常由于判断将着重采用机器学习的方法，解决文本分类的问题。两个随机事件是否相互独立。记语料库中的一个特征为 fn; n 2 f0; 1; ; 396287g，事件“文档中存在 fn” 由于本文是根据 F 1 值筛选出模型和参数的，为了表述方便，在后文中均用拟合优度均代指 F 1 值。 2具体细节详见3.4.1小节 3预处理后的数据可见附件：data_q2_X_ﬁnal_data.pkl 3

2.2.1 交叉验证与网格寻优筛选模型参入人工因素选择。因此，本文采用网格寻优法，从笔者认为，机器学习是一门理论的科学，亦是一门实践的艺术。因此，在 NLP 特别是汉语言处理这门比较新的领域，任何模型都不能随意地认定其优劣。考虑到前人在这方面的研究较少，因此，本人将从逻辑回归4、支持向量分类器（以下称 SVC）、决策树、k 近邻算法（以下简称 kNN）、朴素贝叶斯分类器、随机森林和 AdaBoost 中，筛选最合适的模型以及模型参数。在筛选模型之前，需要先筛选最佳的模型参数。上述模型中，带有参数的模型分别为 SVC、决策树、 kNN、随机森林和 AdaBoost。如图3所示，K 折交叉验证常用来评价一个模型在指定数据集中的优劣。其将数据集复制成 K 份，记为 Di; i 2 f1; 2; ; Kg。同时将 Di 按比例 % 拆分成训练集、测试集， = 100/K。之后对于某一个模型，通过 K 折训练集训练 K 个分模型，并分别计算它们在相应的测试集中的拟合优度，并构成拟合优度序列 Si; i 2 f1; 2; ; Kg。图 3. K 折交叉验证原理根据序列 Si 的均值 ¯S, 即可评价该模型在数据集中的总体拟合优度。对于不同模型，可以分别根据 ¯S 最大，来筛选最优模型。对于同一模型的不同参数，同样可以将其视为不同模型，并根据上述方法筛选。为了筛选不同模型的最佳参数，可以通过遍历的方法遍历模型参数的所有取值可能，再使用交叉验证的方法筛选参数。然而，遍历法的代价实在太大。为了降低计算机的运算负荷，可以适当地加大步长，并参数网格中筛选最优参数。由于网格寻优法从参数网格中寻找最佳参数，从这个意义上来说，网格寻优法可视为大步长、动态步长、掺杂人工因素的遍历法。 2.2.2 模型及其参数的筛选结果与 T 检验承上所述，为了选择最好的模型，首先需要筛选模型们的参数。而需要选择参数的模型有 kNN、 SVC、决策树、随机森林和 AdaBoost。本文使用网格寻优法，结合 5 折交叉验证，计算模型的 F1 值作为 Si 筛选模型，最终的结果如表1所示5。表 1. 各模型的参数网格与筛选结果模型 kNN SVC 决策树随机森林 AdaBoost 参数网格 k1:(3,5,7,9,11) C2: (0,0.1,0.25,0.5 ,0.75,1,1.25,1.5,1.75, 2,3,4,5,6,7,8,9) 核函数:(线性函数、径向基函数、三次多项式函数) 最大深度 d:(7,9, 11,13,15,17,19,24,29, 34,39,44,49,54,59,64, 69,74,79,84,89) 3: (0.00025, cpp 0.0005,0.001, 0.00125,0.015, 0.01,0.05,0.1) 基模型个数：(15, 25,35,45,50,65,75,85, 95,100,150,200,250, 300) 基模型个数：(15, 25,35,45,50,65,75,85, 95,100,150,200,250, 300) 最佳结果 3 C= 0:1, 核函数：线性函数 d = 79, cpp = 0:0005 75 15 1 这里不妨啰嗦一句，kNN 算法的 k 只能取奇数 2 即惩罚参数. 3 即最小代价复杂度剪枝处理的阀值得到最佳参数后，再次使用 5 折交叉验证的方法，计算 k = 3 的 kNN、C = 0:1 核函数为线性函数 4正则化用于解决过拟合问题，然而考虑到这些模型的拟合优度均较低，因此不使用正则化 5可以看到，参数网格由疏到密，这实际是渗入人工因素的结果，具体见2.4.3 4

的 SVC、d = 79; cpp = 0:0005 的决策树、基模型为 d = 5 的决策树、个数为 75 的随机森林、基模型为逻辑回归、个数为 15 的 AdaBoost、朴素贝叶斯分类器，以及逻辑回归，分别计算它们在数据集中的拟合优度序列 Si; i 2 f1; 2; ; 5g。如表 2,3所示，各模型由于所有模型两两 T 检验的概率均有 p > ，故接受原假设，即认为各模型的效果两两等价。 2.3 文本分类模型的训练本节将根据 T 检验法的结果，从中挑选出一个在数据集的拟合优度序列如下：适合的模型，并训练它。表 2. 各模型（最优参数下）的拟合优度序列 Si AdaBoost 决策树 kNN 逻辑回归 S1 S2 S3 S4 S5 ¯S 0.82 0.85 0.84 0.87 0.85 0.85 0.71 0.73 0.76 0.78 0.73 0.74 0.52 0.54 0.53 0.55 0.53 0.53 0.83 0.87 0.85 0.87 0.84 0.85 表 3. 续上表 Si 贝叶斯分类器随机森林 SVC 0.82 S1 0.85 S2 0.83 S3 0.86 S4 0.84 S5 0.84 ¯S 0.85 0.86 0.83 0.87 0.89 0.86 0.45 0.45 0.46 0.49 0.46 0.46 从各模型的拟合优度序列的均值 ¯S 可以剔除决策树、随机森林和 kNN。剩下的模型差别均不大。但是，人们不能贸然地认为这些模型在效果上是等价的。因此，为了判断这些模型是否等价，还需要采用 T 检验的方法。类似于2.1.3小节所述的卡方检验，T 检验亦属于统计检验的方法。T 检验用于判断两个序列的均值，在置信水平下是否相等。篇幅所限，这里不再复述其原理。于是，本文考虑将 AdaBoost、逻辑回归、贝叶斯分类器和 SVC 的拟合优度序列，进行两两的 T 检验。设置置信水平为 = 0:05，可得检验结果见表 5(见附录 A)。 2.3.1 模型选择与分析根据2.2.2小节的分析结果可知，AdaBoost、逻辑回归、贝叶斯分类器和 SVC 的效果是一样的。很明显，属于集成模型的 AdaBoost 所消耗的资源较多，没有必要选择它。而较之模型的训练时长而言，显然通过拙算法6训练的贝叶斯分类器，所需的训练时长最短。而需要迭代算法求解的逻辑回归和 SVC，在这方面略逊一筹。然而由于 SVC 需要求解的优化问题7较为复杂。但另一方面，较之逻辑回归，SVC 只需要训练支持向量。换句话说，在硬件实现上可以直接剔除非支持向量个体，因此在训练模型时，消耗的内存较低。另外，由于贝叶斯分类器是通过拙算法训练的，需要存储数据的频率信息。因此，使用贝叶斯分类器所消耗的内存 (3MB) 更多。并且，分类决策所需要的时间亦长。再加上数据预处理所需要的内存资源，使得贝叶斯分类器无法用在嵌入式系统等场合。而逻辑回归与 SVC 则相反，它们只需要存储模型参数 (1MB 左右) 即可。有的读者可能会认为 SVC 更具有稳定性（即每次训练时结果波动不大），这可能是由于支持向量机也叫最大间隔模型的原因。但不得不说，由于惩罚参数 C = 0:1 并且接近于 0，因此实际上该 SVC软化得很彻底的，所以其稳定性高的谬论不攻自破。综上，在条件允许的情况（如个人电脑）下，可使用贝叶斯分类器。如果要求简单至上，轻装上阵，则可以选择逻辑回归和 SVC。另外值得注意的是，SVC 的核函数为线性函数。也就是说，此时 SVC 与逻辑回归一样，属于线性分类器。并且，我们看到非线性分类器，除了贝叶斯分类器8以外，它们的效果无疑都很差。这是为什么呢？笔者认为，这是由于特征过多，导致的数据集线性可 6通过存储数据的频率信息 7即模型训练过程中，使得代价函数最小的问题 8AdaBoost 属于 Boost 集成，线性模型的 Boost 集成还是线性的，这点笔者已经在之前的研究中验证过 5

分的缘故。 2.3.2 模型训练本文在将二元语法转换为词袋模型时，只保存非零元素的索引和值。这样可将数据压缩到 4MB 左右，同时节省了操作系统释放、存取内存9的时间。在得出模型之后，还需要将数据集拆分成训练另外，由于特征的取值为频数，其值为整数且大集、测试集筛选数据。可能有读者认为这是多此一多很小，因此可以将其转换为无符号短整型（即一个举，因为在筛选模型的时候已经反复训练了。但并非字节），从而节省存储开支。如此，因为测试集的意义在于测试模型的拟合优度，人们总是期望在陌生的数据中测试。如果测试集的信息在除测试以外的阶段“泄露”了，那么将会失去测试的意义。 2.4.2 多分类与类别不均衡对于逻辑回归和 SVC 模型来说，由于其只能输出正负两个结果，故不可以直接用于多分类任务。所所以说，如果直接拿交叉验证时训练的模型投入以笔者用它们进行文本分类时，将不同类别的样本使用，那么等于直接拿未经测试的模型投入使用。无 “分而治之”，从而将多分类任务转换为多个二分类论是工业界还是学术界，这都是不可取的。因为无法任务。评价模型的泛化能力，并判断其是否过拟合。因此，本文将数据集按 7:3 拆分成训练集、测试集，在训练集中分别训练逻辑回归、SVC 和决策树模型。并计算模型们在训练集、测试集中的 F 1 值。结果如表 4所示。这里采用 OvR的分而治之策略，即在划分某一类时，将不属于该类的样本视为负样本，从而转换为二分类问题。这么做比起 OvO10 而言，其算法复杂度更低11 。然而，这么做会使得正负样本数量不均衡，从而影响模型的拟合优度。举个简单的例子，若表 4. 模型在测试集、训练集中的拟合优度值 F1 训练集测试集贝叶斯分类器 0.93 0.88 逻辑回归 1 0.87 SVC 1 0.86 读者可以读取附件文件 nb_model.pkl， l- g_model.pkl 和 svc_model.pkl 使用这些模型。正负样本比例为 1 : 99。那么一个只会点头的模型可能达到 99% 的精度，这显然不是人们愿意看到的。为了解决这种类别不均衡问题，笔者采用了边界 SMOTE的过采样方法。该方法旨在通过少数类样本，使用插值法产生新的样本。其中边界样本产生更多的新样本，从而降低简单复制粘贴数据导致模型过拟合的风险。其具体算法见参考文献 [7]，这里不再赘述。 2.4 算法的底层实现与操作简介 2.4.3 网格寻优的具体操作笔者的计算机配置为：Inter(R) Core(TM)i5- 5200U CPU2.20GHz，内存 8GB，Win7 系统。在编程过程中，受硬件限制，遇到了很多不可避免的问前面提到，网格寻优法能够加入人工因素，从而避免盲目地遍历参数。笔者在筛选参数的时候，先使用大步长遍历大范围参数。并根据结果的左右边界，题。另外，上一小节所介绍的模型、以及数据预处理逐渐减小步长，并缩小参数范围，从而更加精确地筛时潜在许多问题与相应的解决办法，下面将一一介绍选模型参数。这些底层算法实现。 2.4.1 稀疏矩阵的存取 2.4.4 贝叶斯分类器的某些设置贝叶斯分类器根据特征的连续与否，可以分为多在2.1.2小节中，使用词袋模型处理数据将会得到一个 9210 396287 的矩阵。矩阵绝大部分为 0 元素，若直接生成，则需要 27GB 左右的内存空间。因此，项式分布、伯努利分布和正态分布三种方式。伯努利分布一般用在二值特征之中，因此不采用。而数据的词袋模型由频数构成，其天然具有离散特征的性质。 9由于 8GB 远远不够用，因此计算机需要将数据缓存到硬盘 10即 one vs one 的缩写，是另一种分而治之的策略。同样地，OvR 为 one vs rest 11不难证明，OvR 的复杂度为 O(n)，而 OvO 为 O(n2) 6

所以，本文使用的贝叶斯分类器属于多项式分布类因此，为了降低特征个数，本文考虑使用汉语分型。当然，也可以将这种“自然数”类型的离散特征视为连续型，从而采用正态分布12。词器将句子拆分成一个个的单词。同时，采用正向最长匹配算法，过滤掉停用词、常见词。并采用类似由于这里采用了多项式分布类型的贝叶斯分类的方法，将地点、人名、机构名等在粗分的结果下合器，因此为了提高模型的泛化程度，需要给模型进行平滑处理。本文采用的是一种 +1 平滑策略13，具体实现请参阅文献 [3]，这里不再赘述。 2.4.5 参数寻优算法并。经过上述处理之后，再使用与2.1.2小节同样的方法，使用词袋模型将语料库转换为稀疏矩阵。为了进行特征降维，文章还将采用主成分分析的方法，压缩数据的维度。同样，这里的语料库亦均指代留言详除了 kNN、贝叶斯分类器以外，其余的所有模型都需要寻找某个参数，使得某个代价函数最小，情。从而得到模型的参数。换句话说，模型的训练（参数求解过程）是一个优化问题。在本文中，笔者使用优化算法 LBFGS来求解优化问题。LBPGS 类似于拟牛顿法的随机优化算法，它使用 mini-batch 来降低计算量。较之拟牛顿法，该方法节省内存，且采用 mini-batch 的它能够降低海赛矩阵的计算时间14。本文使用的 LBPGS 的步长为 0.01，mini-batch 为 100 个样本。LBFGS 算法具体细节可参阅参考文献 [5]，这里不过多复述。 3 文本聚类与热度算法要从每一个群众的留言中，收集某一时间段内群众集中反映的问题，显然属于一个文本聚类的问题。如果将群众相似的留言聚成一簇，即可将簇视为某个集中问题。根据该簇包含的留言条数、支持和反对的总数，并考虑其热度随时间的衰减，即可估计该问题的热度。为了提取出聚类簇中留言的问题描述，以及地点和人群。本文考虑使用关键语句提取算法，从而自动 3.1.1 条件随机场分词器如上所述，为了将留言拆分成一个个单词，首先需要使用机器学习的方法训练一个分词器。同样地，为了训练分词器，就需要一个事先拆分好的语料库作为训练集。一种获取语料库的方法是，在附件二的基础上手工分词，但这么做的代价着实太大，得不偿失。因此，本文考虑采用开源的语料库，如 SIGHAN0515提供的 PKU 和 MSR 预料库。考虑到 MSR 在标注一致性上要优于 PKU，这一点可以用历史报告佐证。并且 MSR 的拆分颗粒度较大，一些地名 MSR 不予拆分，因此适合用在本场合中。MSR 语料库分为训练、测试语料库，其部分展示如下： “ 人们常说生活是一部教科书，而血与火的战争更是不可多得的教科书，她确实是名副其实的 ‘ 我的大学 ’ 。 “ 心静渐知春似海，生成关键句，再从关键句中人工提取出地点和人群。花深每觉影生香。籍此就可以降低直接从留言详情中，人工提取问题概 “ 吃屎的东西，述的工作量。 3.1 特征工程不同于2.4.5小节，文本聚类属于无监督问题，其不能根据卡方检测来筛选特征。因此如果仍然采用二连一捆麦也铡不动呀？ ... 由于汉语的分词问题实际上是一种序列标注的问题，定义标注集为 fB; M; E; Sg，其中 B; M; E; S 分别代表开头、中间、结尾和单个词。于是例句我爱元语法对语料库建模，将会导致特征个数非常多。第八届泰迪杯挑战赛拆分可得： 12不建议读者这么做，根据笔者的许多研究和实践，发现正态分布类型的准确度等指标往往较低，无论在特征连续与否都是如此。笔者认为这是正态分布参数难以训练的结果 13即拉普拉斯修正系数为 1 的平滑策略 14相应的收敛会减缓，但不影响收敛 15第二届国际中文分词评测，可免费用于研究目的 7

[我/S, 爱/S, 第/B八/M届/E, 泰/B 3.1.2 停用词过滤与命名实体合并在汉语中，有些词语如的、啊、呢、换句话说、总而言之等对句子的信息影响不大。并且，标点符号和制表符等特殊符号亦不影响语义。因此需要在粗拆分的基础上过滤掉这些停用词。另外，一些人民、地名和机构名，以及数字等在粗拆分的基础上，需要将其再度合并。这些都可以用正向最长匹配算法实现。该算法需要一个词典，以停用词过滤为例，这里使用的是 HanLP 开源词典17。正向最长匹配从某个汉字开始，从前往后的扫描每个汉字。若途中构成的词存在于词典中，而与下一个汉字组合却不存在（即最长），则将其过滤。对于人民、地名和机构名也是一样，结合某部字典，通过正向最长匹配，在粗分的基础上进行再合并。通过上述条件随机场、停用词过滤等处理后，以附件三第二条留言为例，其分词结果如下所示。其中词“10年”就是粗分后合并的结果。 [A市, A, 6区, 道路, 命名, 规划, 已经, 初步, 成果, 公示, 文件, 转化, 成为, 正式, 成果, 希望, 加快, 完成, 路名, 规范, 道路, 安装, 路, 名牌, 变更, 路, 名牌, 及时, 更换, A, 6区, 农村, 门牌, 10年, 未曾, 更换, 会, 统一, 更换, 现在, 找, 地方, 只能, 说, 路口, 没有, 充分, 发挥, 路名, 地名, 作用, A, 6区, 行政区划, 已经, 调整, 完毕, 门牌, 更新, 应该, 同步, 开展] 迪/E, 杯/S, 挑/B战/E, 赛/S] 因此对于每一个汉字，都有一个状态与之对应。很显然这是一个分类问题，其亦可以使用机器学习解决。考虑到一个汉字的状态，与前面一个汉字的状态有关。因此，这里结构判别模型——条件随机场模型解决。当然，笔者始终秉持着机器学习是一门实践的艺术这一理念，在考虑条件随机场时，亦通过多种模型筛选的方式，发现其效果最优，才采用该模型的，具体做法详见附录 B。条件随机场类似于隐马尔可夫模型，如图4所示。其中特征 xt 由 n 个连续的汉字 xi; i 2 f1; 2; ; ng 组成，这里取 n = 5。方块可以理解为一个特征函数 fk(yt−1; yt; xt)，而 yt = (y1; y2; ; y5); y 2 fB; M; E; Sg 属于标签向量。图 4. 条件随机场原理于是，条件随机场的定义如下： T∏ expf K∑ t=1 k=1 p(yjx) = 1 Z(x) wkfk(yt−1; yt; xt)g (3) 3.1.3 词袋模型与 PCA 降维其中 wk 为待训练参数，而 Z(x) 为归一化系数，其值为： ∑ T∏ expf K∑ Z(x) = wkfk(yt−1; yt; xt)g y t=1 k=1 条件随机场的训练比较冗长，篇幅所限，这里不再详细介绍，具体内容可参阅参考文献 [9]。使用维特比算法 [4] 训练模型16后，即可用模型给语料库进行序列标注，并根据标注结果分词即可。 16训练好的模型大小 156MB，恕不上传。 17见文件 stopwords.txt 8 为了将分词后的文档转换为结构化的特征向量，本文将再次采用2.1.2小节所述的词袋模型，从而将语料库转换为 4326 42754 的稀释矩阵。同样，为了节省内存，这里仍旧采用2.4.1小节的方法存取稀疏数据。值得注意的是，将语料库转换为特征向量的方法还有许多，例如 TF-IDF。但是，若采用 TF-IDF，由于其实现是基于词袋模型的，如果采用这种方法，会导致稀疏特性遭到破坏，增大内存与 CPU 的负荷。其二，TF-IDF 将语料库中出现的高频词赋为低

分享到：

赞收藏

资料库

第八届泰迪杯挑战赛垃圾论文.pdf

相关推荐

人工智能

热门标签

最新资料