c#抓取网页数据(网上很多内容采集工具,发现C#可以轻松的抓去网页)

优采云 发布时间: 2021-11-24 10:05

  c#抓取网页数据(网上很多内容采集工具,发现C#可以轻松的抓去网页)

  网上有很多内容采集工具,今天尝试自己写一个,发现C#可以很方便的抓取网页的内容,然后通过正则化分离出感兴趣的数据。这是抓取网页内容的代码:

  using System;

using System.Collections.Generic;

using System.Linq;

using System.Web;

using System.Net;

using System.Text;

using System.IO;

using System.Text.RegularExpressions;

namespace Web

{

///

/// 公共方法类

///

public class WebHandler

{

///

/// 获取网页的HTML码

///

/// 链接地址

/// 编码类型

///

public static string GetHtmlStr(string url, string encoding)

{

string htmlStr = "";

try

{

if (!String.IsNullOrEmpty(url))

{

WebRequest request = WebRequest.Create(url); //实例化WebRequest对象

WebResponse response = request.GetResponse(); //创建WebResponse对象

Stream datastream = response.GetResponseStream(); //创建流对象

Encoding ec = Encoding.Default;

if (encoding == "UTF8")

{

ec = Encoding.UTF8;

}

else if (encoding == "Default")

{

ec = Encoding.Default;

}

StreamReader reader = new StreamReader(datastream, ec);

htmlStr = reader.ReadToEnd(); //读取网页内容

reader.Close();

datastream.Close();

response.Close();

}

}

catch { }

return htmlStr;

}

}

}

  该方法可以获取网页的HTML内容。使用 HTML,我们可以使用正则化来抓取我们想要的内容。. .

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线