网页抓取解密(一个中一个基础表的数据从另一个网站采集开始 )

优采云 发布时间: 2021-11-15 14:06

  网页抓取解密(一个中一个基础表的数据从另一个网站采集开始

)

  最近开发了一个小函数,数据库中一个基础表的数据来自另一个网站采集。

  因为网站的数据会不时更新,所以需要自动更新采集最新的内容。

  如何判断数据是否更新?

  好在网站中有​​更新日志提示。您只需要比较本地保留的更新日志与最新日志是否一致即可。

  解析网页的源代码是一个难点,有的使用正则表达式。

  但我不经常使用正则表达式。网上搜了一下,找到了一个开源库ScrapySharp。

  为什么要使用这个库?

  因为您可以使用 JQuery 的 css 选择器轻松解析网页。

  现在贴出这段代码,有需要的可以参考一下。

  var browser = new ScrapingBrowser();

browser.Encoding = System.Text.Encoding.UTF8;

string html = browser.DownloadString(new Uri("urlAddress"));//获取网页的源码

var doc = new HtmlAgilityPack.HtmlDocument();

doc.LoadHtml(html);

var docNode = doc.DocumentNode;

IEnumerable nodes = docNode.CssSelect(".className");//使用css类选择器获取节点

string text = row_0_s.ElementAt(0).InnerText;//获取标签的文本

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线