jGibbLDA使用方法.docx

发布时间：2022-06-15 发布人：admin 分类：说明书资料大小：1.12M 资料格式：docx 举报版权申诉

c7728286-a531-46ff-be5c-ca5de16697c1.docx.pdf-第1页.png

第1页 / 共6页

c7728286-a531-46ff-be5c-ca5de16697c1.docx.pdf-第2页.png

第2页 / 共6页

c7728286-a531-46ff-be5c-ca5de16697c1.docx.pdf-第3页.png

第3页 / 共6页

c7728286-a531-46ff-be5c-ca5de16697c1.docx.pdf-第4页.png

第4页 / 共6页

c7728286-a531-46ff-be5c-ca5de16697c1.docx.pdf-第5页.png

第5页 / 共6页

c7728286-a531-46ff-be5c-ca5de16697c1.docx.pdf-第6页.png

第6页 / 共6页

1.在h

2.对JGibbLDA-v.1.0.tar.gz进行解压缩得到工程文件JGibbLDA-v.1.0，在e

3.运行程序对测试文件进行LDA主题建模。操作过程如图5、图6、图7、图8、图9所示。

4.运行结果如图10所示。

5.运行参数说明。

6.jGibbLDA的数据输入格式

7.jGibbLDA的数据输出格式

1. 在 http://jgibblda.sourceforge.net/下载 JGibbLDA-v.1.0.tar.gz，下载页面如图 1 所示。图1 选择2.1Download 按提示进行下载 2. 对 JGibbLDA-v.1.0.tar.gz 进行解压缩得到工程文件 JGibbLDA-v.1.0，在 eclipse 中导入工程文件。导入过程如图。图2 在PackageExplorer 空白处右键，选择Import

图3 选择ExistingProjectsintoWorkspace，点击Next 图4 单击Browse，选择解压好的工程文件JGibbLDA-v1.0，点击Finish

3. 运行程序对测试文件进行 LDA 主题建模。操作过程如图 5、图 6、图 7、图 8、图 9 所示。图5 工程文件上右键-->RunAs-->RunConfigurations… 图6 双击JavaApplication

图7 单击Search 按钮图8 选择LDA–jgibblda，点击OK

图9 选择Arguments 标签，在Programarguments：输入参数，点击Apply，点击Run 4. 运行结果如图 10 所示。图10 主题-关键词结果 5. 运行参数说明。 -est models/casestudy-en/ -dfile newdocs.dat -alpha 0.5 -beta 0.1 -ntopics 100 -niters 500 -savestep 100 -twords 20 -dir 其中， -est: Estimate the LDA model from scratch ·-alpha : alpha 是 LDA 的超参数，它的默认值是 50/K（K 是主题的数量）。 ·-beta : beta 是 LDA 模型的超参数，它的默认值是 0.1。 ·-ntopics : 主题数量，默认值为 100，它与输入的数据集有关，可以自行设定。 ·-niters : 吉布斯采样的迭代次数，默认值为 2000，可以自行设定。

·-savestep : 每次 LDA 建模结果的吉布斯抽样间隔数，默认值为 200，可自行设定。如设为 100，则每隔 100 次吉布斯抽样存储一次 LDA 建模结果。 ·-twords : 与每个话题最相关的词的数量，默认值为 0。可以自行设定，如果设为 20，则 JGibbLDA 将把与话题最相关的 20 个词显示在话题下面。 ·-dir : 输入数据集的存储目录。 jGibbLDA 的数据输入格式 ·-dfile :输入数据集的名称。 6. 作为训练和估计模型的数据以及新数据的数据输入格式是相同的，输入格式如下所示： [M] [document1] [document2] … [documentM] 其中，第一行的 M 表示要处理文档的数量，之后每行的[documenti]是数据集中的第 i 个文档中的所有词的列表，格式如下所示： [documenti] = [wordi1] [wordi2] [wordi3] … [wordiNi] 其中，[wordij](i=1..M, j=1..Ni)为字符串，并且通过空格来分隔开。 7. jGibbLDA 的数据输出格式 JGibbLDA 的输出包括以下几个文件： .others .phi .theta .tassign .twords 其中：表示对应于存储到硬盘上的时间步长值的 LDA 模型的名称。例如，第 400 次吉布斯采样迭代生成的模型名称为 model-00400。最后一次吉布斯采样迭代生成的模型名称为 model-final. .others 包含了一些 LDA 模型的参数，比如 alpha(LDA 模型的一个超参数)、 beta(LDA 模型的一个超参数)、ntopics(主题数量)、ndocs(文档数量)、nwords(词汇数量)、liter(以保存模型的吉布斯采样迭代)。 .phi 包含了词-主题分布，也就是 p(wordw|topict)。每一行表示一个主题，每一列的词是可能与该行主题有关的词表中的词。 .theta 包含了主题-文档分布，也就是 p(topict|documentm)。每一行表示一个文档，每一列表示一个主题。 .tassign 包含了训练数据中每个词的主题分布。每一行是包含了 :列表的文档。 .twords 包含了与每个话题最相关的词。 JGibbLDA 同时还会生成一个 wordmap.txt 文件，它包括每个词和它的数量的一种映射关系。

分享到：

赞收藏

资料库

jGibbLDA使用方法.docx

相关推荐

后端

热门标签

最新资料