文章采集平台(爬网址做采集规则的时候,直观标注很方便。)

优采云 发布时间: 2021-09-08 01:20

  文章采集平台(爬网址做采集规则的时候,直观标注很方便。)

  制作采集规则的时候,可以很方便的在视觉上做标记。在网页上点击鼠标标记要抓取的内容。当爬虫运行时,它会自动去采集这些内容。但是,有些内容(如网页上的超链接)并没有直接显示在网页上,或者即使显示了某些内容,也无法准确地进行视觉标注。这时候就需要用到内容映射了。

  内容映射必须在对应的DOM节点上进行操作。

  1.内容映射采集超LINK

  下面以京东列表页面上的商品链接为例,说明如何使用内容映射方式将商品链接映射到新的内容(字段)。

  在定义规则状态下,点击产品名称。在下面的 DOM 列中,光标对应一个 DOM 节点。一般链接存放在A节点下的属性节点href中。

  

  右键href节点,内容映射-新建内容

  

  给新内容起个名字叫“商品链接”,因为采集是一个URL链接,href节点中的URL不完整,所以检查完整的URL。

  

  大功告成,我们测试一下,看看产品链接是否被抓到了。

  

  2.内容映射采集一般网页内容

  比如我们想要采集this文章,但是网页上只能通过可视化标注选择一个section,在DOM节点上做内容映射,整篇文章就可以发送至文章采集

  

  点击文章的第一段,光标对应下面的节点,沿着节点向上看,直到找到一个节点,点击它,整个文章都在闪亮的框中,这意味着整个文章被选中。右击这个节点,内容映射-新建内容,然后给新建的内容起个名字。

  

  在这个例子中,新内容的名称是文章。整个内容映射到文章。

  

  因为我们的采集是文本内容,所以必须选择纯文本。

  

  第 1 部分 文章:“攀爬 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改进网页 采集accuracy”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线