c#抓取网页数据(本文介绍如何使用C#抓取网页上的图片资源。(图))
优采云 发布时间: 2021-11-09 14:06c#抓取网页数据(本文介绍如何使用C#抓取网页上的图片资源。(图))
本文介绍如何使用C#抓取网页上的图片资源。下面是一个简单的程序示例:
C#抓取网页资源
捕捉到的图片地址会以TXT文件的形式保存在软件目录下。
C#抓取网页资源
主要使用几个简单的方法来实现这个功能:
使用WebClient读取网页源码:
public String gethtml(String url)
{
try
{
WebClient MyWebClient = new WebClient();
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
Byte[] pageData = MyWebClient.DownloadData(url); //从指定网站下载数据
//string pageHtml = Encoding.Default.GetString(pageData); //如果获取网站页面采用的是GB2312,则使用这句
string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句
return pageHtml;
}
catch (WebException webEx)
{
return webEx.Message.ToString();
}
}
字符串的截取方法:
public String getstrmid(String str, string str1, string str2)
{
return str.Substring(str.IndexOf(str1) + str1.Length, str.IndexOf(str2) -str.IndexOf(str1) - str1.Length);
}
光有这些还不够,还需要用到正则匹配,因为正则规则是和网页内容相关的,所以正则规则就不在这里贴了。