爬网址做采集规则的时候,直观标注很方便。
优采云 发布时间: 2021-08-18 21:30爬网址做采集规则的时候,直观标注很方便。
制作采集规则的时候,可以很方便的在视觉上做标记。在网页上点击鼠标标记要抓取的内容。当爬虫运行时,它会自动去采集这些内容。但是,有些内容(如网页上的超链接)并没有直接显示在网页上,或者即使显示了某些内容,也无法准确地进行视觉标注。这时候就需要使用内容映射了。
内容映射必须在对应的DOM节点上进行操作。
1.内容映射采集超LINK
下面以京东列表页面上的商品链接为例,说明如何使用内容映射方式将商品链接映射到新的内容(字段)。
在定义规则状态下,点击产品名称。在下面的 DOM 列中,光标对应一个 DOM 节点。一般链接存放在A节点下的属性节点href中。
右键href节点,内容映射-新建内容
给新内容起个名字叫“商品链接”,因为采集是一个URL链接,href节点中的URL不完整,所以检查完整的URL。
大功告成,我们测试一下,看看产品链接是否被抓到了。
2.内容映射采集一般网页内容
比如我们想要采集this文章,但是在网页上只能选择一个section进行可视化标注,在DOM节点上做内容映射,可以发送整篇文章至文章采集。
点击文章的第一段,光标对应下面的节点,向上查找节点,直到找到一个节点,点击它,整个文章在闪亮的框中,表示整个文章被选中。右击这个节点,内容映射-新建内容,然后给新建的内容起个名字。
在这个例子中,新内容的名称是文章。整个内容映射到文章。
因为我们的采集是文本内容,所以我们要选择纯文本。
第 1 部分 文章:“爬上 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改进网页 采集accuracy”