行业新闻

你的位置: 主页 > 行业新闻 >

基于Dirichlet多指派模型的多源文本主题挖掘模型

  • 发表时间:2019-07-19 10:33
  • 来源:365bet体育在线导航
基于Dirichlet多指派模型的多源文本主题挖掘模型
徐立阳黄瑞章陈艳萍钱莉李婉莹
摘要:随着文本数据源的不断增长,从多个来源挖掘文本数据主题是文本挖掘领域研究的重点。
由于传统的主题模型主要针对来自单一来源的文本数据建模,因此直接应用于来自多个来源的文本数据存在更多限制。
基于Dirichlet多分配模型(DMA),多源Dirichlet多分配模型(MSDMA),提出了一种多源文本挖掘模型。
通过考虑不同数据源中主题词分布的差异,结合DMA模型的非参数分组特征,该模型解决了三个主要问题:在同一数据源中。2)在数据源之间共享主题空间和术语空间,以便它们可以补充数据源中的主题知识,并改善高噪声问题和数据源发现的影响信息很少。3)可以独立学习的数据源中的主题数量不需要提前给定数量的主题。
最后,模拟数据集和实际数据集的实验结果表明,所提出的模型可以比传统的主题模型更有效地从多个来源的主题数据中挖掘信息。你。
作者单位:
贵州省计算机科学与技术研究生院,贵州省大型公共数据实验室(贵州大学)重点技术软件实验室(南京大学)[基金]:中国国家科学基金(61462011);)
贵州省应用基础研究主体工程(Jinje J-J 2014[2014]2001)
贵州省主要科技专项(黔特特[2017]3002)
它由贵州省自然科学基金(广东晃集团[2018]1035)资助。~~[分类号]:TP391。
1
下载全文
更多类似的文件