2016上海事业单位医疗招聘:SQLServer访问与数据处理算法
优采云 发布时间: 2021-08-16 20:202016上海事业单位医疗招聘:SQLServer访问与数据处理算法
.Net 框架的命名空间 System.Net 中提供了两个类 WebRequest 和 WebResponse,分别用于发送客户端请求和从服务器获取响应。
2)正则表达式
正则表达式提供了强大、灵活和高效的文本处理方法。正则表达式的模式匹配可以快速分析大量文本,找到特定的字符模式;提取、编辑、替换或删除文本子串;或将提取的字符串添加到集合中。
在.Net命名空间System.Text.RegularExpressions中,提供了Regex类来构建正则表达式,也提供了相应的方法来匹配和过滤字符串。
3)ADO.Net
采集 系统获取的数据最终会存储在本地数据库中,.NET框架中提供了数据库访问技术ADO.NET。它屏蔽了各种数据源之间的差异,使用统一的访问接口,由一组访问各种数据源的类组成。为了提高访问效率,还为SQL Server提供了特殊的类,如SqlConnection、SqlCommand、SqlDataReader、Dataset、SqlDataAdapter等,完成对SQL Server数据库的访问和数据处理。
2.3 算法说明
完成信息采集,首先要能够过滤掉页面上我们需要的链接的起点,然后系统模拟手动点击过程读取信息。
1)根据访问路径创建C#自带的REGEX类的对象,是用于匹配正则表达式的文本类。
2)通过WebRequest发送请求,WebResponse接收返回的响应,然后通过StreamReader读取返回的响应,形成收录网页所有源代码的字符串。
3)用正则表达式匹配字符串得到Match采集集合,其中存储了我们需要进一步阅读的所有目标链接。
4) 遍历集合的成员,访问成员链接指向的页面,StreamReader读取信息后使用正则表达式提取页面信息。如果页面是访问路径的末端,则读取相应信息后,将所有结构化数据存入数据库;如果只是为了获取下一级链接,则转移到1)。
3 招聘信息采集系统的实现
1)阅读招聘单位名单信息
打开web_url指定的网站页面,使用StreamReader对象读取该网页的源代码并将其存储在字符串all_code中,方便提取正则表达式。
HttpWebRequest all_codeRequest = (HttpWebRequest)WebRequest.Create(web_url);
WebResponse all_codeResponse = all_codeRequest.GetResponse();
StreamReader the_Reader = new StreamReader(all_codeResponse.GetResponseStream(), System.Text.Encoding.Default);
string all_code = the_Reader.ReadToEnd();
the_Reader.Close();
2)提取招聘单位超链接列表
创建一个表达式字符串p,用它创建一个正则表达式对象re,并使用re.Matches方法返回all_code字符串的所有匹配超链接集hy。
string p = @".+";
Regex re = new Regex(p, RegexOptions.IgnoreCase);
Match采集 hy = re.Matches(all_code);
<p>for (int i = 0; i