c#抓取网页数据(开发数据采集程序的时候需要清楚的几个基本流程)

优采云 发布时间: 2021-11-24 10:04

  c#抓取网页数据(开发数据采集程序的时候需要清楚的几个基本流程)

  首先大家要清楚:网站的任何页面,无论是php、jsp、aspx等动态页面,还是后台程序生成的静态页面,都可以在浏览器。

  

  所以当你要开发数据采集程序时,首先要了解网站你试图采集的首页结构(HTML)。

  当您熟悉网站中需要采集数据的HTML源文件的内容后,程序的其余部分就很容易处理了。因为C#在网站上执行数据采集,原理是“下载你要采集的页面的HTML源文件,分析HTML代码然后抓取你需要的数据,最后将数据保存到本地文件”。

  基本流程如下图所示:

  

  1.页面源文件下载

  首先引用 System.Net 命名空间

  using System.Net;

  还需要引用

  using System.Text;

using System.IO;

  引用后实例化一个 WebClient 对象

  private WebClient wc = new WebClient();

  调用 DownloadData 方法从指定网页的源文件中下载一组 BYTE 数据,然后将 BYTE 数组转换为字符串。

  //下载页面源文件并将其转换成UTF8编码格式的STRING

string mainData = Encoding.UTF8.GetString(wc.DownloadData(string.Format("你要采集的网页地址")));

  或者也可以调用DownloadFile方法,先将源文件下载到本地再读取其字符串

  //下载网页源文件到本地

wc.DownloadFile("你要采集的网页URL","保存源文件的本地文件路径");

//读取下载下来的源文件HTML格式的字符串

string mainData = File.ReadAllText("保存源文件的本地文件路径",Encoding.UTF8);

  通过网页HTML格式字符串,您可以分析网页采集,抓取您需要的内容。

  2.页面分析采集

  页面分析就是将网页源文件中的某个特定的或唯一的字符(字符串)作为抓点,并以此抓点为起点,截取你想要的页面上的数据。

  以博客园为专栏。比如我要在博客园首页列出文章的标题和链接,就必须用“

  

<p>//以"

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线