网站内容采集系统(web网站信息采集系统的设计(一)说明实现过程)

优采云 发布时间: 2022-02-11 06:09

  网站内容采集系统(web网站信息采集系统的设计(一)说明实现过程)

  Web网站信息采集系统设计方案 [摘要] 探讨利用.Net技术和数据库技术设计一个采集Web网站信息系统,并利用人才网站招聘信息的采集是一个例子来说明执行过程。提出基于Web的信息采集系统的设计方案,并使用. 网络技术和数据库技术,实现采集和特定网站信息的处理。[关键词]信息检索WEB技术ADO.NET CLC编号:TP3 文档识别码:A 文章编号:1671-7597(2008)1120081-01 随着WWW的发展,搜索引擎提供的搜索和导航服务已经成为互联网上非常重要的网络服务。它的特点是可以帮助我们快速找到想要的网站或信息。本文讨论了.Net技术、数据库技术的使用,设计了Web网站信息的采集系统,并以某人才网站招聘信息的采集为一个例子来说明实现过程。一、信息采集系统设计(一)采集系统设计思路首先要采集指定< @网站,要了解浏览信息的方式,记录对应的访问路径。网站大多是用动态web技术(ASP、PHP等)构建的,通过数据库检索参数传输,并输出相应的信息。二、

  第三,考虑到网站可能会执行多次采集,需要避免在自己的数据库中存储重复信息,同时重复处理已有信息也会减少采集@ > 系统工作效率。因此,在记录每条信息的同时,可以记录对应的URL或相关ID,以方便验证链接是否被访问过。(二)相关技术 1.请求/响应模型。Web应用程序是基于HTTP协议的客户端/服务器请求-响应机制的信息交换。当我们在浏览器中输入一个URL时,需要建立一个连接、发送请求、发送响应、关闭连接四步,获取网页信息。在System.Net的命名空间中。Net框架,提供了WebRequest和WebResponse两个类,分别用于发送客户端请求和获取服务器返回的响应。。常用表达。正则表达式提供了一种强大、灵活和高效的文本处理方式。正则表达式的模式匹配可以快速分析大量文本以找到特定的字符模式;提取、编辑、替换或删除文本子字符串;或将提取的字符串添加到集合中。在.Net命名空间中System.Text.RegularExpressions提供了Regex类来构建正则表达式,也提供了相应的方法来完成字符串的匹配和过滤。3. ADO.Net.采集系统获取到的数据最终会存储在本地数据库中,数据库访问技术ADO.NET在.

  它屏蔽了各种数据源之间的差异,使用统一的接口进行访问,它由一组访问各种数据源的类组成。为了提高访问效率,还提供了SQL Server、SqlConnection、SqlCommand、SqlDataReader、Dataset、SqlDataAdapter等特殊类,完成对SQL Server数据库的访问和数据处理。(三)算法描述了待补信息的采集。首先要能在页面中过滤掉我们需要的链接的起点,然后系统模拟人工点击流程阅读信息 1.根据访问路径创建 C#自带的REGEX类的一个对象,是一个用于匹配正则表达式的文本类 2.通过WebRequest发送请求,WebResponse 接收返回的响应,然后通过 StreamReader 读取返回的响应,形成一个收录所有源字符串的网页。3.用正则表达式匹配字符串,得到Match采集集合,里面存储了我们需要进一步阅读的所有目标链接。4、遍历集合的成员,访问成员链接指向的页面,信息被StreamReader读取后,使用正则表达式提取页面信息。二、招聘信息采集系统的实现(一)读取招聘单位列表信息,打开web_url@>指定的网站页面,读取源代码网页通过StreamReader对象存储在字符串all_code中,方便正则表达式提取。

  HttpWebRequestall_codeRequest=(HttpWebRequest)WebRequest.Create(web_url); WebResponseall_codeResponse=all_codeRequest.GetResponse(); StreamReaderthe_Reader=newStreamReader(all_codeResponse.GetResponseStream(), System.Text.Encoding.Default); stringall_code=the_Reader.ReadToEnd(); the_Reader.Close(); (二)提取招聘单位的超链接列表创建表达式字符串p,用它创建正则表达式对象re,并使用re.Matches方法返回all_code字符串的所有匹配超链接集hy .stringp=@".+";Regexre=newRegex(p,RegexOptions.IgnoreCase);Match采集hy=re.Matches(all_code);for(inti=0;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线