c#抓取网页数据(网上很多内容采集工具,发现C#可以轻松的抓去网页)
优采云 发布时间: 2021-11-24 10:05c#抓取网页数据(网上很多内容采集工具,发现C#可以轻松的抓去网页)
网上有很多内容采集工具,今天尝试自己写一个,发现C#可以很方便的抓取网页的内容,然后通过正则化分离出感兴趣的数据。这是抓取网页内容的代码:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Net;
using System.Text;
using System.IO;
using System.Text.RegularExpressions;
namespace Web
{
///
/// 公共方法类
///
public class WebHandler
{
///
/// 获取网页的HTML码
///
/// 链接地址
/// 编码类型
///
public static string GetHtmlStr(string url, string encoding)
{
string htmlStr = "";
try
{
if (!String.IsNullOrEmpty(url))
{
WebRequest request = WebRequest.Create(url); //实例化WebRequest对象
WebResponse response = request.GetResponse(); //创建WebResponse对象
Stream datastream = response.GetResponseStream(); //创建流对象
Encoding ec = Encoding.Default;
if (encoding == "UTF8")
{
ec = Encoding.UTF8;
}
else if (encoding == "Default")
{
ec = Encoding.Default;
}
StreamReader reader = new StreamReader(datastream, ec);
htmlStr = reader.ReadToEnd(); //读取网页内容
reader.Close();
datastream.Close();
response.Close();
}
}
catch { }
return htmlStr;
}
}
}
该方法可以获取网页的HTML内容。使用 HTML,我们可以使用正则化来抓取我们想要的内容。. .