文章采集平台(爬网址做采集规则的时候,直观标注很方便。)
优采云 发布时间: 2021-09-08 01:20文章采集平台(爬网址做采集规则的时候,直观标注很方便。)
制作采集规则的时候,可以很方便的在视觉上做标记。在网页上点击鼠标标记要抓取的内容。当爬虫运行时,它会自动去采集这些内容。但是,有些内容(如网页上的超链接)并没有直接显示在网页上,或者即使显示了某些内容,也无法准确地进行视觉标注。这时候就需要用到内容映射了。
内容映射必须在对应的DOM节点上进行操作。
1.内容映射采集超LINK
下面以京东列表页面上的商品链接为例,说明如何使用内容映射方式将商品链接映射到新的内容(字段)。
在定义规则状态下,点击产品名称。在下面的 DOM 列中,光标对应一个 DOM 节点。一般链接存放在A节点下的属性节点href中。
右键href节点,内容映射-新建内容
给新内容起个名字叫“商品链接”,因为采集是一个URL链接,href节点中的URL不完整,所以检查完整的URL。
大功告成,我们测试一下,看看产品链接是否被抓到了。
2.内容映射采集一般网页内容
比如我们想要采集this文章,但是网页上只能通过可视化标注选择一个section,在DOM节点上做内容映射,整篇文章就可以发送至文章采集。
点击文章的第一段,光标对应下面的节点,沿着节点向上看,直到找到一个节点,点击它,整个文章都在闪亮的框中,这意味着整个文章被选中。右击这个节点,内容映射-新建内容,然后给新建的内容起个名字。
在这个例子中,新内容的名称是文章。整个内容映射到文章。
因为我们的采集是文本内容,所以必须选择纯文本。
第 1 部分 文章:“攀爬 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改进网页 采集accuracy”