网页新闻抓取(基于互联网的人物实体关系提取研究的主要素材——,本文)
优采云 发布时间: 2021-10-25 17:00网页新闻抓取(基于互联网的人物实体关系提取研究的主要素材——,本文)
[摘要] 互联网经过多年的快速发展,积累了大量的信息资源。其中收录的人物之间的关系是一种重要的信息,用于情报分析、网络舆情监测、社交网络分析等领域。有非常重要的应用。研究人员已经意识到这一点,并展开了相关研究。新闻网页因其术语规范、报道及时、信息可信度高而受到研究人员的青睐。新闻网页已成为基于互联网的人与实体关系提取研究的主要材料。基于以上认识,本文结合新闻网页中实体关系抽取主体的实际需求,进行了多项研究。这些研究包括: 1、 在分析一般网页采集器的特点和不足的基础上,结合具体的应用背景和实际需求,为了准确、高效地下载新闻网页,本文根据新闻网页网址的特点构造新闻网页网址模式,设计并实现了新闻主题网页采集器,很好的完成了网页采集的任务。2、 仔细分析了当前网页过滤算法效率低下的原因。在总结新闻网页特点的基础上,提出了一种基于文本块字符数的新闻网页过滤算法,并通过实验验证了该算法的有效性。性别。3、 针对支持向量机(SVM)在多类划分中的不足,引入kNN算法来消除拒绝向量。由于kNN算法的时空开销较大,当向量数量较多时,其分类性能很差,会严重影响最终的字符关系提取。因此本文提出了一种改进的kNN算法,大大提高了其性能。4、 最后,本文设计并实现了新闻网页中人物关系抽取的原型系统。该系统集成了主题网页采集、中文分词、词性标注、字符信息提取、关系提取、关系存储等功能。它是新闻网页中字符关系抽取的整体实现,也是测试本文所研究方法的最佳方式。道路。