不用采集规则就可以采集(复杂点的办法可以针对B2B网站写个Python爬虫,爬取指定网页和图文)
优采云 发布时间: 2022-02-10 07:30不用采集规则就可以采集(复杂点的办法可以针对B2B网站写个Python爬虫,爬取指定网页和图文)
简单的方法是使用 采集 工具。之前试过很多工具,发现很多采集工具都不能采集图片,而且不是免费的。后来终于找到了一个叫gooseeker set Sooke的工具,可以同时把所有的图文都下载下来,关键还是免费的。这个工具有两个部分,一个 MS 计数器负责 采集 规则,另一个 DS 计数器负责 采集 数据。
不知道你要的是产品目录页还是产品详情页的图文?产品目录页面非常简单。使用该工具的MS为页面制定采集规则,即将要抓取的信息和图片url映射到排序框中,并为图片url设置下载图片,因为目录页面有很多页面,每页有多个产品信息,需要设置样本复印和自动翻页。最后用DS计数器采集把所有的图文都下来,如果要挑一个新的URL,只需要通过DS把URL添加到规则中即可。你不再需要制定规则,你可以批量采集数千条。甚至数十万个 URL 的数据。
商品详情页不难,方法和上面类似,只需要翻页,特别注意控制采集的速度和周期,虽然这个工具可以很高效,但是如果你想继续的话要批量采集,不要走得太快,否则电商网站会检测到异常,经常会弹出验证窗口,你会甚至无法访问网页。
<p>对于更复杂的方法,可以为B2B网站编写一个Python爬虫来爬取指定的网页和图形,但是每个B2B网站的结构都比较复杂。如果使用这种方式,需要不断的调试和测试,仅仅采集一个网站就需要一个月的时间来规划、编程、调试、运行优化等。如果换了网站@ >,改程序要花很长时间,所以大批量