网页文章自动采集(用PHP实现网站信息自动批量采集专业班级:计算机科学与技术一班)

优采云 发布时间: 2021-12-01 21:09

  网页文章自动采集(用PHP实现网站信息自动批量采集专业班级:计算机科学与技术一班)

  文件介绍:

  学校代码:10151 论文成绩:

  *敏*感*词*:2220053119

  大连海事大学

  ┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊订单┊┊┊┊┊┊┊线┊┊┊┊┊┊┊

  毕业论文

  2009 年 6 月

  网页数据自动化设计与实现

  ——利用PHP实现网站信息采集的自动批量处理

  专业班级:计算机科学与技术一班

  姓名:陈能

  指导老师:刘超斌

  信息科学与技术学院

  抽象的

  随着互联网的不断普及,政府部门、企业、文化传媒等各类组织都将互联网视为自己的。

  作为信息发布方式之一,互联网上的信息资源越来越丰富,人们可以通过互联网了解更多的信息。

  然而,由于互联网上资源信息呈指数级增长,不仅数量难以统计,而且海量、

  信息类型还涵盖了这个多样化世界的所有方面。这样,无论是对于个人还是网站经理,你都想采集

  某一方面或多个方面的信息量,仅靠人工存储在数据库或文件中,耗费大量时间。

  复制、组织和存储的时间和人力。这种低水平的重复性工作是无法忍受的。

  当这种手工方式难以完成任务,浪费大量宝贵时间时,同时大部分的网络资源

  它以网页的形式显示给用户。无论是静态页面还是动态页面,网页的固定格式使其自动采集

  网络信息成为可能。

  本文研究了在这种情况下如何实现网站采集的自动信息。在设计论文时,基于网页

  XML 的格式和 XML 的格式有一些共同的特征,然后使用强大的正则表达式来提取所有符合要求的信息。

  并获取相关内容,添加到数据库或保存到文件中,实现自动采集。

  本论文中的采集系统采用基于LAMP架构的Web应用开发平台。最终在多平台(Linux、Windows)上实现

  等),自动采集和可选的手动采集用于多个站点的信息。并且可以重新处理采集的内容,同理

  及时管理采集站点和采集结果。最终实现了一个最基本、简单但完整的采集系统。

  关键词:信息采集,LAMP,正则表达式,过滤,自动提取。

  抽象的

  随着政府部门、企业和

  文化媒体和其他一些类型的*敏*感*词*被视为其中之一

  信息传播方式。资源越来越丰富

  ,人们可以从中了解更多信息。然而,作为

  资源呈指数级增长,数量庞大且难以统计

  数,那种信息也涵盖了这个多面世界的方方面面。所以它花费

  大量时间复制、整理、存储数据库或文件中的信息,无论它们是

  想要手动采集大量区域的个人或管理人员

  信息范围。这种低水平的重复工作令人难以忍受。

  在这样一个艰巨的任务中手动完成,并且浪费了很多宝贵的时间,而且

  大多数网页以 HTML 格式显示在用户的浏览器中。是否为静态

  页面或动态页面,页面m

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线