js 抓取网页内容(如何在软件开发中获取网页的完整的html内容代码 )

优采云 发布时间: 2021-11-22 12:02

  js 抓取网页内容(如何在软件开发中获取网页的完整的html内容代码

)

  在软件开发过程中,可以使用如下代码获取body标签中的内容:

  document.body.innerHTML

  但是,通过上述方法无法获取head、html等body标签以外的元素的内容。如果需要获取整个网页的完整html内容,可以使用如下JavaScript代码:

  document.documentElement.outerHTML

  在CefSharp中获取网页的完整HTML输出

  在CefSharp中,可以通过ChromiumWebBrowser类型的GetSourceAsync方法获取网页的源代码。该方法返回的字符串收录html标签,但不收录通过JavaScript动态渲染的内容。

  如果您想获取收录动态渲染的内容(例如在采集 场景中),您可以通过运行 JavaScript 代码来实现:

  public static async Task GetDocumentHtml(ChromiumWebBrowser browser)

{

var result = await browser.EvaluateScriptAsync("document.documentElement.outerHTML");

if (result.Success)

{

return result.Result.ToString();

}

else

{

return await browser.GetSourceAsync();

}

}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线