网页新闻抓取(基于互联网的人物实体关系提取研究的主要素材——,本文)

优采云发布时间: 2021-10-25 17:00

　　[摘要] 互联网经过多年的快速发展，积累了大量的信息资源。其中收录的人物之间的关系是一种重要的信息，用于情报分析、网络舆情监测、社交网络分析等领域。有非常重要的应用。研究人员已经意识到这一点，并展开了相关研究。新闻网页因其术语规范、报道及时、信息可信度高而受到研究人员的青睐。新闻网页已成为基于互联网的人与实体关系提取研究的主要材料。基于以上认识，本文结合新闻网页中实体关系抽取主体的实际需求，进行了多项研究。这些研究包括： 1、在分析一般网页采集器的特点和不足的基础上，结合具体的应用背景和实际需求，为了准确、高效地下载新闻网页，本文根据新闻网页网址的特点构造新闻网页网址模式，设计并实现了新闻主题网页采集器，很好的完成了网页采集的任务。2、仔细分析了当前网页过滤算法效率低下的原因。在总结新闻网页特点的基础上，提出了一种基于文本块字符数的新闻网页过滤算法，并通过实验验证了该算法的有效性。性别。3、针对支持向量机（SVM）在多类划分中的不足，引入kNN算法来消除拒绝向量。由于kNN算法的时空开销较大，当向量数量较多时，其分类性能很差，会严重影响最终的字符关系提取。因此本文提出了一种改进的kNN算法，大大提高了其性能。4、最后，本文设计并实现了新闻网页中人物关系抽取的原型系统。该系统集成了主题网页采集、中文分词、词性标注、字符信息提取、关系提取、关系存储等功能。它是新闻网页中字符关系抽取的整体实现，也是测试本文所研究方法的最佳方式。道路。

0

2021-10-25

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(基于互联网的人物实体关系提取研究的主要素材——,本文)

0 个评论

发起人