c#抓取网页数据(网上很多内容采集工具，发现C#可以轻松的抓去网页)

优采云发布时间: 2021-11-24 10:05

　　网上有很多内容采集工具，今天尝试自己写一个，发现C#可以很方便的抓取网页的内容，然后通过正则化分离出感兴趣的数据。这是抓取网页内容的代码：

　　using System;

using System.Collections.Generic;

using System.Linq;

using System.Web;

using System.Net;

using System.Text;

using System.IO;

using System.Text.RegularExpressions;

namespace Web

{

///

/// 公共方法类

///

public class WebHandler

{

///

/// 获取网页的HTML码

///

/// 链接地址

/// 编码类型

///

public static string GetHtmlStr(string url, string encoding)

{

string htmlStr = "";

try

{

if (!String.IsNullOrEmpty(url))

{

WebRequest request = WebRequest.Create(url); //实例化WebRequest对象

WebResponse response = request.GetResponse(); //创建WebResponse对象

Stream datastream = response.GetResponseStream(); //创建流对象

Encoding ec = Encoding.Default;

if (encoding == "UTF8")

{

ec = Encoding.UTF8;

}

else if (encoding == "Default")

{

ec = Encoding.Default;

}

StreamReader reader = new StreamReader(datastream, ec);

htmlStr = reader.ReadToEnd(); //读取网页内容

reader.Close();

datastream.Close();

response.Close();

}

catch { }

return htmlStr;

}

　　该方法可以获取网页的HTML内容。使用 HTML，我们可以使用正则化来抓取我们想要的内容。. .

0

2021-11-24

c#抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c#抓取网页数据(网上很多内容采集工具，发现C#可以轻松的抓去网页)

0 个评论

发起人

AI时代内容工厂

c#抓取网页数据(网上很多内容采集工具，发现C#可以轻松的抓去网页)

0 个评论

发起人

相关问题