logo资料库

jGibbLDA使用方法.docx

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
1.在h
2.对JGibbLDA-v.1.0.tar.gz进行解压缩得到工程文件JGibbLDA-v.1.0,在e
3.运行程序对测试文件进行LDA主题建模。操作过程如图5、图6、图7、图8、图9所示。
4.运行结果如图10所示。
5.运行参数说明。
6.jGibbLDA的数据输入格式
7.jGibbLDA的数据输出格式
1. 在 http://jgibblda.sourceforge.net/下载 JGibbLDA-v.1.0.tar.gz,下载页面如图 1 所示。 图1 选择2.1Download 按提示进行下载 2. 对 JGibbLDA-v.1.0.tar.gz 进行解压缩得到工程文件 JGibbLDA-v.1.0,在 eclipse 中导入工 程文件。导入过程如图。 图2 在PackageExplorer 空白处右键,选择Import
图3 选择ExistingProjectsintoWorkspace,点击Next 图4 单击Browse,选择解压好的工程文件JGibbLDA-v1.0,点击Finish
3. 运行程序对测试文件进行 LDA 主题建模。操作过程如图 5、图 6、图 7、图 8、图 9 所 示。 图5 工程文件上右键-->RunAs-->RunConfigurations… 图6 双击JavaApplication
图7 单击Search 按钮 图8 选择LDA–jgibblda,点击OK
图9 选择Arguments 标签,在Programarguments:输入参数,点击Apply,点击Run 4. 运行结果如图 10 所示。 图10 主题-关键词结果 5. 运行参数说明。 -est models/casestudy-en/ -dfile newdocs.dat -alpha 0.5 -beta 0.1 -ntopics 100 -niters 500 -savestep 100 -twords 20 -dir 其中, -est: Estimate the LDA model from scratch ·-alpha : alpha 是 LDA 的超参数,它的默认值是 50/K(K 是主题的数量)。 ·-beta : beta 是 LDA 模型的超参数,它的默认值是 0.1。 ·-ntopics : 主题数量,默认值为 100,它与输入的数据集有关,可以自行设定。 ·-niters : 吉布斯采样的迭代次数,默认值为 2000,可以自行设定。
·-savestep : 每次 LDA 建模结果的吉布斯抽样间隔数,默认值为 200,可自行设定。如 设为 100,则每隔 100 次吉布斯抽样存储一次 LDA 建模结果。 ·-twords : 与每个话题最相关的词的数量,默认值为 0。可以自行设定,如果设为 20, 则 JGibbLDA 将把与话题最相关的 20 个词显示在话题下面。 ·-dir : 输入数据集的存储目录。 jGibbLDA 的数据输入格式 ·-dfile :输入数据集的名称。 6. 作为训练和估计模型的数据以及新数据的数据输入格式是相同的,输入格式如下所示: [M] [document1] [document2] … [documentM] 其中,第一行的 M 表示要处理文档的数量,之后每行的[documenti]是数据集中的第 i 个文 档中的所有词的列表,格式如下所示: [documenti] = [wordi1] [wordi2] [wordi3] … [wordiNi] 其中,[wordij](i=1..M, j=1..Ni)为字符串,并且通过空格来分隔开。 7. jGibbLDA 的数据输出格式 JGibbLDA 的输出包括以下几个文件: .others .phi .theta .tassign .twords 其中: 表示对应于存储到硬盘上的时间步长值的 LDA 模型的名称。例如,第 400 次吉布斯采样迭代生成的模型名称为 model-00400。最后一次吉布斯采样迭代生成的模型名 称为 model-final. .others 包含了一些 LDA 模型的参数,比如 alpha(LDA 模型的一个超参数)、 beta(LDA 模型的一个超参数)、ntopics(主题数量)、ndocs(文档数量)、nwords(词汇数量)、liter(以 保存模型的吉布斯采样迭代)。 .phi 包含了词-主题分布,也就是 p(wordw|topict)。每一行表示一个主题, 每一列的词是可能与该行主题有关的词表中的词。 .theta 包含了主题-文档分布,也就是 p(topict|documentm)。每一行表示 一个文档,每一列表示一个主题。 .tassign 包 含 了 训 练 数 据 中 每 个 词 的 主 题 分 布 。 每 一 行 是 包 含 了 :列表的文档。 .twords 包含了与每个话题最相关的词。 JGibbLDA 同时还会生成一个 wordmap.txt 文件,它包括每个词和它的数量的一种映射 关系。
分享到:
收藏