网站内容抓取( Html就是获取完的页面可以显示在页面中引用的内容)

优采云发布时间: 2022-04-01 15:21

　　网站内容抓取(

Html就是获取完的页面可以显示在页面中引用的内容)

　　可以看出有一个通用类，我们可以根据这个获取内容。

　　 public string Html = string.Empty;

protected void Page_Load(object sender, EventArgs e)

{

string[] number = { "zero", "one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen", "sixteen", "seventeen", "eighteen", "nineteen", "twenty" };

var htmlSource = new JumonyParser().LoadDocument("http://www.cnblogs.com").Find(".post_item a.titlelnk");

int count = 0;

foreach (var htmlElement in htmlSource)

{

count ++;

Html += string.Format(" {2}、  <a href=\"About.aspx?Url={0}\" target=\"_blank\">{1}</a>", htmlElement.Attribute("href").Value(), htmlElement.InnerText(),count);

}

　　html是完成的页面

　　又可以在aspx页面显示

　　根据上面页面生成的一个链接，我们可以根据这个链接抓取内容，

　　 public string Htm2l = string.Empty;

public string HtmlText2 = string.Empty;

protected void Page_Load(object sender, EventArgs e)

{

string html = Request["Url"];

var htmlSource = new JumonyParser().LoadDocument(html);

HtmlText2 = htmlSource.Find(".postTitle2").FirstOrDefault().InnerText();

Htm2l = htmlSource.Find("#cnblogs_post_body").FirstOrDefault().InnerHtml();

}

　　可以通过引用页面中背景的内容来显示标题的主页。

　　【版权@ithuo】【博客地址】可转载，但请注明出处并保留博客超链接。如果有不正确的地方，请告诉我，感谢您的帮助和支持！

0

2022-04-01

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取( Html就是获取完的页面可以显示在页面中引用的内容)

0 个评论

发起人

AI时代内容工厂

网站内容抓取( Html就是获取完的页面可以显示在页面中引用的内容)

0 个评论

发起人

相关问题