网站内容抓取( Html就是获取完的页面可以显示在页面中引用的内容)
优采云 发布时间: 2022-04-01 15:21网站内容抓取(
Html就是获取完的页面可以显示在页面中引用的内容)
可以看出有一个通用类,我们可以根据这个获取内容。
public string Html = string.Empty;
protected void Page_Load(object sender, EventArgs e)
{
string[] number = { "zero", "one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen", "sixteen", "seventeen", "eighteen", "nineteen", "twenty" };
var htmlSource = new JumonyParser().LoadDocument("http://www.cnblogs.com").Find(".post_item a.titlelnk");
int count = 0;
foreach (var htmlElement in htmlSource)
{
count ++;
Html += string.Format(" {2}、 <a href=\"About.aspx?Url={0}\" target=\"_blank\">{1}</a>", htmlElement.Attribute("href").Value(), htmlElement.InnerText(),count);
}
}
html是完成的页面
又可以在aspx页面显示
根据上面页面生成的一个链接,我们可以根据这个链接抓取内容,
public string Htm2l = string.Empty;
public string HtmlText2 = string.Empty;
protected void Page_Load(object sender, EventArgs e)
{
string html = Request["Url"];
var htmlSource = new JumonyParser().LoadDocument(html);
HtmlText2 = htmlSource.Find(".postTitle2").FirstOrDefault().InnerText();
Htm2l = htmlSource.Find("#cnblogs_post_body").FirstOrDefault().InnerHtml();
}
可以通过引用页面中背景的内容来显示标题的主页。
【版权@ithuo】【博客地址】可转载,但请注明出处并保留博客超链接。如果有不正确的地方,请告诉我,感谢您的帮助和支持!