c#抓取网页数据(本文介绍如何使用C#抓取网页上的图片资源。(图))

优采云 发布时间: 2021-11-09 14:06

  c#抓取网页数据(本文介绍如何使用C#抓取网页上的图片资源。(图))

  本文介绍如何使用C#抓取网页上的图片资源。下面是一个简单的程序示例:

  

  C#抓取网页资源

  捕捉到的图片地址会以TXT文件的形式保存在软件目录下。

  

  C#抓取网页资源

  主要使用几个简单的方法来实现这个功能:

  使用WebClient读取网页源码:

  public String gethtml(String url)

{

try

{

WebClient MyWebClient = new WebClient();

MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据

Byte[] pageData = MyWebClient.DownloadData(url); //从指定网站下载数据

//string pageHtml = Encoding.Default.GetString(pageData); //如果获取网站页面采用的是GB2312,则使用这句

string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句

return pageHtml;

}

catch (WebException webEx)

{

return webEx.Message.ToString();

}

}

  字符串的截取方法:

   public String getstrmid(String str, string str1, string str2)

{

return str.Substring(str.IndexOf(str1) + str1.Length, str.IndexOf(str2) -str.IndexOf(str1) - str1.Length);

}

  光有这些还不够,还需要用到正则匹配,因为正则规则是和网页内容相关的,所以正则规则就不在这里贴了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线