怎样抓取网页数据(中如何获取并定位网页的信息的方法?(图))
优采云 发布时间: 2021-09-17 07:17怎样抓取网页数据(中如何获取并定位网页的信息的方法?(图))
写在前面:这部分梳理了爬虫爬行的基本思想,并给出了一些场景下的解决方案。但不幸的是,没有足够的时间添加代码。在今后仔细阅读正式文件后,我将继续填写这一部分
如何在爬虫中获取和定位网页信息
由于我们获取的网页类型不同,我们想要抓取的信息的定位方法也有很大的不同,但一般来说,我们想要抓取的网页可以分为静态和动态。下面介绍如何在不同情况下对这些信息进行爬网
不同类型的网页
根据获取网页的不同方式,可分为
为什么动态网页要区分这两个网络爬虫
我们获取网页信息的方法的核心实现是以最小的代价模拟正常用户请求网页时的行为,只有在获取信息后才能解析网页;让我们首先介绍一些获取网页信息的工具,然后根据不同类型的网页解释如何使用这些工具
工具2:使用JS引擎呈现已爬网的JS代码:工具3:模拟浏览并单击网页:
动态网页模拟请求方法
爬虫定位网页信息的方法
爬虫定位网络信息的方法有两种:匹配文本和构建树搜索;让我们根据以下两种方法详细介绍每种工具:
第二类:树形搜索。最后,我们经常使用更成熟的库:lxml、BS4、XQuery、xpoint:
最后,我们将根据不同类型的网页确定使用的工具:
动态网络参考
[1] 百科全书XML/item/XML%E8%A7%A3%E6%9E%90%E5%99%A8/2673664?fr=阿拉丁
[2] 百科全书DOM/item/%E6%96%87%E6%A1%A3%E5%AF%B9%E8%B1%A1%E6%A8%A1%E5%9E%8B/1033822?fromtitle=DOM&fromid=50288&fr=aladdin
[3] 知乎DOM/QUOTE/34219998
[4] XSL页面/style/XSL/
[5] 百科全书XPath/item/XPath
[6] XPath官方网站/TR/XPath/all/
[7] Libxml2官方网站/
[8] Libxlst tutorial/XSLT/tutorial/libxslttutorial.html
[9] Lxml官方网站Lxml.de/
[10] Html5lib官方网站Html5lib.readthedoc.io/en/latest/Html5lib.html#
[11] 几个概念的比较/问题/20097166
[12] BS与lxml/question/26494302的比较