基于网路爬虫的新闻网站自动生成系统的设计与实现

优采云 发布时间: 2020-08-04 15:00

  基于网路爬虫的新闻网站自动生成系统的设计与实现 文/刘晖 石倩 【摘 要】摘 要 【期刊名称】《电子技术与软件工程》 【年(卷),期】2019(000)013 【总页数】2 【关键词】【关键词】网络爬虫 静态网页 新闻模板 1 绪论 网络媒体随着网路技术的发展迅速壮大,这促使人们就能更快地获取新闻信息。网络媒体的新闻来 源有来自于自己所访谈的新闻,也有许多引用自其他的网站。如何快速准确地采集新闻,更新新闻 网站成为网路媒体的一个重要问题。 2 研究进展 早期的新闻采集大多靠人工去搜索和整理,直到网路爬虫技术的出现才促使人工得以解放,大大提 高了新闻的采集速度。为了愈发快速准确地抓取网页,Cho[1]等人在爬虫中引入了网页抓取策略的 概念。针对特定领域的新闻,王辛[2]等人基于站点分类的网页抓取策略,设计了即时新闻采集分析 系统。虽然如今有了不少爬虫框架,陈欢[3]等人也借助Scrapy爬虫框架设计了有效的网路新闻爬虫 。但因为网路中的网页中存在着大量的与新闻无关的噪音信息,如何消除噪音,快速有效地找到有 效的新闻信息近些年被广泛地研究。陈西安[4]提出了基于网页文本标签特点挖掘的网页正文提取方式 来解决噪音问题。

   快速新闻网站生成系统的重要组成部份,除了快速采集新闻,还有新闻页面模板。新闻页面模板可 以为采集到的新闻内容手动生成新闻页面,这能大大推动新网网站内容更新速率。另一方面,可以 借助新闻页面模板,将新闻网页转换成静态网页,这能大大提升用户访问页面的速率。王莉利[5]等 人提出的将动静技术相结合的思路则才能既保留动态网站的交互性,又克服传统网站访问效率低、 并发性差的问题。 3 系统剖析和设计 3.1 系统功能模块界定 本文按照新闻网站采集和更新的相关功能需求,设计一个新闻网站自动生成系统,它包括“新闻采 集管理”、“新闻管理”、“新闻模板管理”三部份。通过管理新闻网站网址及新闻内容的特殊标 签,让爬虫按照预先设置的参数迅速地采集新闻信息,并借助网页模板手动生成新闻静态网页,从 而达到新闻网站自动快速更新的疗效。整个系统的功能模块如图1所示。 3.2 新闻采集管理 “新闻采集管理”是对预备采集新闻的网站网址进行管理以及进行新闻搜索。为了更快速准确地去 采集新闻信息,系统不会对网路中的所有网站进行新闻信息爬取,而是有针对性地选择主流的新闻 网站作为新闻采集对象,建立新闻采集网址库。 在爬虫手动抽取网站新闻信息时,主要抽取的信息包括新闻标题、新闻来源、新闻日期、新闻内容 等。

  通常同一个网站内的新闻网页都具有相同的格式,这些信息都由特定的HTML起止标签容纳。 所以可以通过预先设置须要采集项目的HTML起止标签使爬虫手动地对网页进行剖析,抓取其中有 用的新闻信息。在设置HTML起止标签时,需要考虑如下问题: (1)有些标签是单标签,此时须要扩大起止标签的范围,避免选择单标签; (2)在抓取新闻信息的过程中,需要注意网站页面设置的编码是UTF-8还是GB2312,这对于爬虫 分析网页是极其重要的。 设置好所有预备采集的新闻网站的采集参数后,就可以通过“搜索新闻”功能手动地运行爬虫程序 去抓取新闻内容,并将相关内容保存到本地服务器的数据库中。由于爬虫搜索网页并储存到本地服 务器的过程一般会比较历时关键词自动采集生成内容系统,所以一般在新闻网站访问量较少的夜晚手动进行。 为提升搜索新闻的速率,我们提出了一种批处理的方法进行搜索。批处理的搜索是借助多线程来实 现的,以队列的方法构建线程池,通过多线程来提升搜索的效率。因为网速等客观诱因,在搜索和 分析新闻网站时须要的响应时间不同,系统会手动按照网络传输速率调节剖析新闻网页的延时。 3.3 新闻管理 “新闻管理”是对采集到的新闻进行管理,它包括预览、编辑、确认等操作。

  虽然在新闻采集阶段 ,通过参数设置可以基本保证采集到的新闻信息具有较高的准确度,但也不可完全避开采集到的信 息出错的情况。所以,新闻编辑人员可以通过提供的预览功能对采集到的新闻信息进行预览和初审 。当发觉有些采集到的新闻信息中有部份内容不确切时,新闻编辑人员可以通过“编辑新闻”对其 进行编辑加工。更多的出错情况一般是因为有部份新闻网页信息没有遵守网站共同的格式而造成采 集到的信息出错,此时采集到的整条新闻内容信息都可能异常。不论何种情况,新闻编辑人员都可 以通过“确认新闻”的功能来确定这条新闻是否可刊载。只有这些被标记为“允许刊载”的新闻信 息条目就会手动生成静态新闻网页,并在网站上即将发布。 对于确认过的新闻,系统每晚定时在夜晚维护时创建一个当日的新闻数据表,并将当日所有确认的 新闻复制到此表中,这样每晚生成新闻网页时可从这个数据表读取要刊载的新闻。当数据量比较大 时,这样可以提升数据库的访问效率。当采集的新闻数据十分大时,我们也可以利用基于 Hadoop框架的大数据储存系统来管理新闻数据。 3.4 新闻模板管理 “新闻模板管理”包括新闻模板的展示,以及静态新闻网页的生成。新闻网页的内容即使不同,但 页面的款式、风格可以统一。

  所以我们事先设计好好多不同风格式样的网页模板供新闻编辑人员进 行选择。新闻编辑人员可以通过“新闻模板显示”查看已有的网页模板并进行选择。选择好合适的 网页模板后,通过“静态网页生成”功能可将编辑人员确认容许刊载的新闻数据转化转化成静态网 页格式。为了节约时间,系统默认从当日确认刊载的新闻数据表中逐字读取新闻数据,然后将新闻 标题、新闻来源、新闻日期、新闻内容等数组的内容放置在新闻模板中对应标签中。所有生成的静 态网页保存在以对应日期命名的文件夹内。静态网页促使用户访问时大大降低因为读写数据库而造 成的效率低下问题。 4 系统测试与推论 通过对多个网站的教育蓝筹股进行新闻信息抓取,我们发觉所设计的系统才能快速准确地实现手动采 集新闻、自动生成新闻网站的功能。但是关键词自动采集生成内容系统,由于采集信息是按照新闻网页中的特殊HTML标签进行 采集的,如果采集来源网页款式发生改变,则会抽取不出新闻内容,此时须要重新标明采集来源网 址中

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线