一是人工采集,二是智能采集(人工采集,的几种常见问题,你知道吗?)

优采云 发布时间: 2022-03-03 01:03

  一是人工采集,二是智能采集(人工采集,的几种常见问题,你知道吗?)

  一是人工采集,二是智能采集。人工采集主要是从黄页,找到想要的网站,然后用编程采集器采集。优点是成本低,省去很多的技术性工作。缺点是效率比较低,有时候需要网站经常更新,或者采集者故意制造新内容,效率就有时候会比较低。智能采集需要有相关的分析能力,需要有预判能力,通过不断学习收集。优点是比较容易学,效率比较高,缺点是需要基本的采集知识。

  同楼上,用从业多年的经验来告诉你。黄页都是预制的,其它网站的内容都可以做出来。题主你说的从黄页爬取是什么意思?有一个让你一次性爬全网的那种技术吗?那种技术就跟机器人一样,你直接写个脚本就能获取你想要的所有信息。但是有些网站,你写脚本就能获取全部信息。你有这个需求吗?这是在骗你。这不叫用python爬虫,那叫爬取黄页。

  比较好的方式是题主你要求一个爬虫,每天自动爬取你想要的信息。这个用apachesoftwarefoundation,

  别相信没用过python就说python爬虫无用的,我自己就是python爬虫python爬虫不行,有用过别的吗,

  个人觉得主要原因是爬黄页的网站太少了,而且涉及到版权问题,一般的爬虫没法一次性爬很多网站。

  没法爬,先不说你有没有agent之类的技术。别说python,就是perl爬虫爬百度官网都难的要死,java爬虫好歹还能多一点什么验证码什么之类的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线