ajax抓取网页内容(HTML网页上有大量的超链接,多数情况下显示成蓝色)
优采云 发布时间: 2022-01-09 13:11ajax抓取网页内容(HTML网页上有大量的超链接,多数情况下显示成蓝色)
网页上有很多超链接,大多数情况下显示为蓝色并带有下划线,便于识别。点击它可以导航到其他网页,这是上网的唯一途径。
例如,在一个HTML网页文档中,网页内容和超链接爬取知识库是一个超链接,其中href的值是点击后要导航到的网页地址,但这只是通常的情况,用 AJAX /Javascript 广泛用于编写 HTML 网页,超链接的实现方式也发生了变化。在很多情况下,href 的值没有有效的内容。超链接仅用于刺激特定 Javascript 代码片段的执行,而 javascript 代码模拟超链接点击的执行。例如,在代码中使用 XMLHttpRequest 对象立即从服务器获取数据内容,然后将内容转换为 HTML 格式对原创网页进行修改和补充,这是 AJAX 框架的典型行为。
第一种情况,使用正则表达式分析HTML文档或者使用XPath表达式分析HTML DOM,可以很方便的抓取到超链接指向的页面地址;但是,在第二种情况下,超链接指向的网页地址并没有出现在HTML文档中,无法通过分析页面的文档内容来抓取超链接。网页内容和超链接抓取软件工具包 MetaSeeker 可以模拟用户点击行为,激发 Javascript 代码的操作,导航到指向的网页,然后抓取该网页上的内容。可以看出这是自动翻页抓取多页,而且很明显,超链接指向的地址并没有被捕获保存,这是MetaSeeker工具包定义的In-thread线程,即,
从MetaSeeker V4.1.1版本开始,每个网页只能捕获一个线程内类型的线程,所以只能用于翻页和爬取,以后会有这个限制版本突破。