网站内容抓取( Html就是获取完的页面可以显示在页面中引用的内容)

优采云 发布时间: 2022-04-01 15:21

  网站内容抓取(

Html就是获取完的页面可以显示在页面中引用的内容)

  

  可以看出有一个通用类,我们可以根据这个获取内容。

   public string Html = string.Empty;

protected void Page_Load(object sender, EventArgs e)

{

string[] number = { "zero", "one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen", "sixteen", "seventeen", "eighteen", "nineteen", "twenty" };

var htmlSource = new JumonyParser().LoadDocument("http://www.cnblogs.com").Find(".post_item a.titlelnk");

int count = 0;

foreach (var htmlElement in htmlSource)

{

count ++;

Html += string.Format(" {2}、&nbsp;&nbsp;<a href=\"About.aspx?Url={0}\" target=\"_blank\">{1}</a>", htmlElement.Attribute("href").Value(), htmlElement.InnerText(),count);

}

}

  html是完成的页面

  又可以在aspx页面显示

  

  根据上面页面生成的一个链接,我们可以根据这个链接抓取内容,

   public string Htm2l = string.Empty;

public string HtmlText2 = string.Empty;

protected void Page_Load(object sender, EventArgs e)

{

string html = Request["Url"];

var htmlSource = new JumonyParser().LoadDocument(html);

HtmlText2 = htmlSource.Find(".postTitle2").FirstOrDefault().InnerText();

Htm2l = htmlSource.Find("#cnblogs_post_body").FirstOrDefault().InnerHtml();

}

  可以通过引用页面中背景的内容来显示标题的主页。

  【版权@ithuo】【博客地址】可转载,但请注明出处并保留博客超链接。如果有不正确的地方,请告诉我,感谢您的帮助和支持!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线