2016上海事业单位医疗招聘:SQLServer访问与数据处理算法

优采云 发布时间: 2021-08-16 20:20

  2016上海事业单位医疗招聘:SQLServer访问与数据处理算法

  .Net 框架的命名空间 System.Net 中提供了两个类 WebRequest 和 WebResponse,分别用于发送客户端请求和从服务器获取响应。

  2)正则表达式

  正则表达式提供了强大、灵活和高效的文本处理方法。正则表达式的模式匹配可以快速分析大量文本,找到特定的字符模式;提取、编辑、替换或删除文本子串;或将提取的字符串添加到集合中。

  在.Net命名空间System.Text.RegularExpressions中,提供了Regex类来构建正则表达式,也提供了相应的方法来匹配和过滤字符串。

  3)ADO.Net

  采集 系统获取的数据最终会存储在本地数据库中,.NET框架中提供了数据库访问技术ADO.NET。它屏蔽了各种数据源之间的差异,使用统一的访问接口,由一组访问各种数据源的类组成。为了提高访问效率,还为SQL Server提供了特殊的类,如SqlConnection、SqlCommand、SqlDataReader、Dataset、SqlDataAdapter等,完成对SQL Server数据库的访问和数据处理。

  2.3 算法说明

  完成信息采集,首先要能够过滤掉页面上我们需要的链接的起点,然后系统模拟手动点击过程读取信息。

  1)根据访问路径创建C#自带的REGEX类的对象,是用于匹配正则表达式的文本类。

  2)通过WebRequest发送请求,WebResponse接收返回的响应,然后通过StreamReader读取返回的响应,形成收录网页所有源代码的字符串。

  3)用正则表达式匹配字符串得到Match采集集合,其中存储了我们需要进一步阅读的所有目标链接。

  4) 遍历集合的成员,访问成员链接指向的页面,StreamReader读取信息后使用正则表达式提取页面信息。如果页面是访问路径的末端,则读取相应信息后,将所有结构化数据存入数据库;如果只是为了获取下一级链接,则转移到1)。

  3 招聘信息采集系统的实现

  1)阅读招聘单位名单信息

  打开web_url指定的网站页面,使用StreamReader对象读取该网页的源代码并将其存储在字符串all_code中,方便提取正则表达式。

  HttpWebRequest all_codeRequest = (HttpWebRequest)WebRequest.Create(web_url);

  WebResponse all_codeResponse = all_codeRequest.GetResponse();

  StreamReader the_Reader = new StreamReader(all_codeResponse.GetResponseStream(), System.Text.Encoding.Default);

  string all_code = the_Reader.ReadToEnd();

  the_Reader.Close();

  2)提取招聘单位超链接列表

  创建一个表达式字符串p,用它创建一个正则表达式对象re,并使用re.Matches方法返回all_code字符串的所有匹配超链接集hy。

  string p = @".+";

  Regex re = new Regex(p, RegexOptions.IgnoreCase);

  Match采集 hy = re.Matches(all_code);

<p>for (int i = 0; i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线