js 抓取网页内容(如何在软件开发中获取网页的完整的html内容代码 )
优采云 发布时间: 2021-11-22 12:02js 抓取网页内容(如何在软件开发中获取网页的完整的html内容代码
)
在软件开发过程中,可以使用如下代码获取body标签中的内容:
document.body.innerHTML
但是,通过上述方法无法获取head、html等body标签以外的元素的内容。如果需要获取整个网页的完整html内容,可以使用如下JavaScript代码:
document.documentElement.outerHTML
在CefSharp中获取网页的完整HTML输出
在CefSharp中,可以通过ChromiumWebBrowser类型的GetSourceAsync方法获取网页的源代码。该方法返回的字符串收录html标签,但不收录通过JavaScript动态渲染的内容。
如果您想获取收录动态渲染的内容(例如在采集 场景中),您可以通过运行 JavaScript 代码来实现:
public static async Task GetDocumentHtml(ChromiumWebBrowser browser)
{
var result = await browser.EvaluateScriptAsync("document.documentElement.outerHTML");
if (result.Success)
{
return result.Result.ToString();
}
else
{
return await browser.GetSourceAsync();
}
}