网页文章自动采集(用PHP实现网站信息自动批量采集专业班级:计算机科学与技术一班)
优采云 发布时间: 2021-12-01 21:09网页文章自动采集(用PHP实现网站信息自动批量采集专业班级:计算机科学与技术一班)
文件介绍:
学校代码:10151 论文成绩:
*敏*感*词*:2220053119
大连海事大学
┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊┊订单┊┊┊┊┊┊┊线┊┊┊┊┊┊┊
毕业论文
2009 年 6 月
网页数据自动化设计与实现
——利用PHP实现网站信息采集的自动批量处理
专业班级:计算机科学与技术一班
姓名:陈能
指导老师:刘超斌
信息科学与技术学院
抽象的
随着互联网的不断普及,政府部门、企业、文化传媒等各类组织都将互联网视为自己的。
作为信息发布方式之一,互联网上的信息资源越来越丰富,人们可以通过互联网了解更多的信息。
然而,由于互联网上资源信息呈指数级增长,不仅数量难以统计,而且海量、
信息类型还涵盖了这个多样化世界的所有方面。这样,无论是对于个人还是网站经理,你都想采集
某一方面或多个方面的信息量,仅靠人工存储在数据库或文件中,耗费大量时间。
复制、组织和存储的时间和人力。这种低水平的重复性工作是无法忍受的。
当这种手工方式难以完成任务,浪费大量宝贵时间时,同时大部分的网络资源
它以网页的形式显示给用户。无论是静态页面还是动态页面,网页的固定格式使其自动采集
网络信息成为可能。
本文研究了在这种情况下如何实现网站采集的自动信息。在设计论文时,基于网页
XML 的格式和 XML 的格式有一些共同的特征,然后使用强大的正则表达式来提取所有符合要求的信息。
并获取相关内容,添加到数据库或保存到文件中,实现自动采集。
本论文中的采集系统采用基于LAMP架构的Web应用开发平台。最终在多平台(Linux、Windows)上实现
等),自动采集和可选的手动采集用于多个站点的信息。并且可以重新处理采集的内容,同理
及时管理采集站点和采集结果。最终实现了一个最基本、简单但完整的采集系统。
关键词:信息采集,LAMP,正则表达式,过滤,自动提取。
抽象的
随着政府部门、企业和
文化媒体和其他一些类型的*敏*感*词*被视为其中之一
信息传播方式。资源越来越丰富
,人们可以从中了解更多信息。然而,作为
资源呈指数级增长,数量庞大且难以统计
数,那种信息也涵盖了这个多面世界的方方面面。所以它花费
大量时间复制、整理、存储数据库或文件中的信息,无论它们是
想要手动采集大量区域的个人或管理人员
信息范围。这种低水平的重复工作令人难以忍受。
在这样一个艰巨的任务中手动完成,并且浪费了很多宝贵的时间,而且
大多数网页以 HTML 格式显示在用户的浏览器中。是否为静态
页面或动态页面,页面m