专利类型 发明授权
IPC分类号 G06F16/16;G06F16/182;G06F16/35;G06F40/30
CPC分类号 -
法律状态 授权
本发明公开了一种基于本体的海量文献数据的聚类方法,其是利用Hadoop框架来对海量文献(例如海量生物医学文献)数据进行聚类的方法,该方法包括对生物医学文献进行预处理;利用Hadoop中的映射归约模型对输入文件作逐行处理,计算文献相似度;根据文献相似度用聚类算法得到最终的生物医学文献簇;基于TF‑IDF提取各个簇的代表性标签。本发明针对了在大数据环境下对生物医学文献进行聚类效率低下的问题,提出了一种并行化模型,使得计算文献相似度工作可以在Hadoop分布式系统中进行,提高了计算效率。