网页抓取 innertext 试题(一个中一个基础表的数据从另一个网站采集开始 )

优采云发布时间: 2022-03-05 20:02

　　网页抓取 innertext 试题(一个中一个基础表的数据从另一个网站采集开始

)

　　最近开发了一个小功能，将数据库中一张底层表的数据从另一张网站采集转过来。

　　因为网站的数据会不时更新，所以更新后需要自动采集最新的内容。

　　如何判断数据是否更新？

　　好在有更新日志提示，网站需要比较本地保留的更新日志是否和最新的日志一致。

　　解析网页源代码比较困难，有的使用正则表达式。

　　但是我用正则表达式的不多，所以在网上搜索了一下，找到了一个开源类库ScrapySharp。

　　为什么要使用这个类库？

　　因为可以使用 JQuery 的 css 选择器轻松解析网页。

　　现在贴出这块的代码，有需要的可以参考。

　　var browser = new ScrapingBrowser();

browser.Encoding = System.Text.Encoding.UTF8;

string html = browser.DownloadString(new Uri("urlAddress"));//获取网页的源码

var doc = new HtmlAgilityPack.HtmlDocument();

doc.LoadHtml(html);

var docNode = doc.DocumentNode;

IEnumerable nodes = docNode.CssSelect(".className");//使用css类选择器获取节点

string text = row_0_s.ElementAt(0).InnerText;//获取标签的文本

0

2022-03-05

网页抓取 innertext 试题

0 个评论

要回复文章请先登录或注册