网页新闻抓取(本发明网页解析并采集新闻的方法,属于网页分析处理领域)
优采云 发布时间: 2021-12-02 10:18网页新闻抓取(本发明网页解析并采集新闻的方法,属于网页分析处理领域)
本发明涉及一种网页分析和采集新闻的方法,属于网页分析处理领域。
背景技术
随着计算机网络技术的不断发展和互联网的普及,人们可以通过高速网络获得自己需要的实时新闻和信息。但与此同时,人们对信息的及时性和准确性的需求也越来越高。许多新闻媒体网站也应运而生。传统新闻发布网站需要新闻发布人员独立完成新闻撰写和审核工作,最后将内容发送呈现给终端用户。对于一些新闻发布网站来说,对于中小企业、学校等相对较小的群体来说,每天独立撰写和评论新闻,成本高昂,成本高昂,因此适应性不高。本方法旨在为中小企业和学校组织提供一套新闻采集程序。其基本目标是利用互联网上已有的新闻资源,结合网络挖掘,为用户提供一套方便快捷的数据获取和发布解决方案,从而简化新闻采集和评论者的工作。同时,当前的一些新闻采集和网页分析方法有时会遇到信息获取过于复杂、无法根据自定义信息获取想要的新闻、或者不支持关键字搜索分析等问题。由于网页和网页结构的巨大差异,
技术实现要素:
为解决现有技术中的上述问题,本发明提出了一种网页解析和采集新闻的方法,该方法采用解析网页源文件获取新闻信息的方法,使用通用的链接挖掘算法,配合用户定制信息挖掘条件,获取新闻内容。
为实现上述目的,本发明的技术方案是这样实现的:
一种网页分析和采集新闻的方法,包括:
a1. 抓取多个目标网页信息,涵盖新闻条目和新闻数据,抓取的目标网页信息包括统一资源定位器url地址;
a2. 解析收录步骤a1中捕获的统一资源定位器url地址的网页信息,得到多个网页解析信息,包括标题、摘要、新闻图片和新闻链接信息;
a3. 获取用户输入的关键字,判断a2中获取的网页分析信息是否符合预设标准和用户需求;
a4.采用半智能方式,即通过通用的链接挖掘算法,配合用户自定义的信息挖掘条件来获取约束。用户自定义信息挖掘条件主要包括默认设置和关键字查询;
a5. 提取满足步骤a3要求和步骤a4限制条件的新闻列表,得到新闻内容,对新闻数据进行多层过滤,包括语言过滤。项目显示在主界面中并呈现给用户。
优选地,在步骤a1和步骤a2之间还包括步骤a11,判断目标网页信息的url地址是否可以解析或者是否已经解析,如果可以解析而未解析,则进行步骤a2 , 如果无法解析或已解析,则url地址将被丢弃。
优选地,在步骤a2中,为了从目标网页信息中解析获取新闻内容,新闻内容是通过对网页的源文件进行解析得到的。
优选地,解析网页和采集新闻的方法支持根据发布者自定义的url使用对应的页面作为数据源,使用步骤a3和a4所述的方法自定义过滤得到页面 所有符合条件的新闻项目。
优选地,在步骤a2中,对于解析后不可用的新闻源,选择使用通用的链接挖掘算法获取所有链接数据。当页面收录的数据代码与当前代码不同,产生中文乱码时,更改当前字符集代码来解析收录的中文。
优选地,在步骤a1中,在抓取目标网页信息时,对页面收录的信息采用通用的链接挖掘算法采集,包括url地址、标题、摘要、图片、类型、编辑时间和来源.
有益效果: 本发明提供了一种网页分析和采集新闻的方法。它利用互联网上现有的新闻资源,结合网络挖掘,为用户提供一整套方便快捷的数据获取和发布解决方案。一方面,它可以获取页面上所有可以解析的新闻条目。另一方面,利用用户自定义的信息挖掘条件作为约束,提高了信息的准确性,增强了目的性,具有高度的灵活性,扩大了发布者对网络新闻的获取。.
图纸说明
图1为本发明提供的方法中网页分析内容*敏*感*词*;
图2是本发明提供的方法的流程图。
详细方法
为使本领域技术人员能够更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例只是本申请一部分实施例,而不是全部示例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,一种网页分析和采集新闻的方法包括:
a1. 抓取多个目标网页信息,涵盖新闻条目和新闻数据,抓取的目标网页信息包括统一资源定位器url地址;
a2. 解析收录步骤a1中捕获的统一资源定位器url地址的网页信息,得到多个网页解析信息,包括标题、摘要、新闻图片和新闻链接信息;
a3. 获取用户输入的关键字,判断a2中获取的网页分析信息是否符合预设标准和用户需求;
a4.采用半智能方式,即通过通用的链接挖掘算法,配合用户自定义的信息挖掘条件来获取约束。用户自定义信息挖掘条件主要包括默认设置和关键字查询;
a5. 提取满足步骤a3要求和步骤a4限制条件的新闻列表,得到新闻内容,对新闻数据进行多层过滤,包括语言过滤。项目显示在主界面中并呈现给用户。
优选地,在步骤a1和步骤a2之间还包括步骤a11,判断目标网页信息的url地址是否可以解析或者是否已经解析,如果可以解析而未解析,则进行步骤a2 , 如果无法解析或已解析,则url地址将被丢弃。
优选地,在步骤a2中,为了从目标网页信息中解析获取新闻内容,新闻内容是通过对网页的源文件进行解析得到的。
优选地,解析网页和采集新闻的方法支持根据发布者自定义的url使用对应的页面作为数据源,使用步骤a3和a4所述的方法自定义过滤得到页面 所有符合条件的新闻项目。
优选地,在步骤a2中,对于解析后不可用的新闻源,选择使用通用的链接挖掘算法获取所有链接数据。当页面收录的数据代码与当前代码不同,产生中文乱码时,更改当前字符集代码来解析收录的中文。
优选地,在步骤a1中,在抓取目标网页信息时,对页面收录的信息采用通用的链接挖掘算法采集,包括url地址、标题、摘要、图片、类型、编辑时间和来源.
示例 1:
如图2所示,对a、b、c三个新闻网站按照步骤a1和a2的方法进行提取和解析,提取出收录以下三个网站的目标网页信息标题、摘要等。
同时获取用户输入的关键词,采用半智能方法和通用链接挖掘算法,匹配用户自定义的信息挖掘条件,对获取的新闻内容进行判断过滤,对以上各项进行判断三 网站 新闻的目标页面信息是否符合预设标准和用户需求;对所选新闻数据进行多层筛选,包括语言筛选、项目限制、默认设置、关键字查询等。
此时,通过上述三个新闻网站提取和过滤的新闻列表将显示在主界面中并呈现给用户。
本发明采用通用的链接挖掘算法,配合用户自定义的信息挖掘条件获取新闻内容,而不是通过一套完善的算法获取所有有效信息。
所公开的实施例的前述描述使本领域技术人员能够实施或使用本发明。对这些实施例的两种修改对于本领域技术人员来说是显而易见的,并且在不脱离本发明的精神或范围的情况下,可以在其他实施例中实施本文件中定义的一般原理。因此,本发明将不限于本文件中所示的实施例,而应符合与本文件中公开的原理和新颖特征一致的最广泛的范围。