不用采集规则就可以采集(复杂点的办法可以针对B2B网站写个Python爬虫，爬取指定网页和图文)

优采云发布时间: 2022-02-10 07:30

　　简单的方法是使用采集工具。之前试过很多工具，发现很多采集工具都不能采集图片，而且不是免费的。后来终于找到了一个叫gooseeker set Sooke的工具，可以同时把所有的图文都下载下来，关键还是免费的。这个工具有两个部分，一个 MS 计数器负责采集规则，另一个 DS 计数器负责采集数据。

　　不知道你要的是产品目录页还是产品详情页的图文？产品目录页面非常简单。使用该工具的MS为页面制定采集规则，即将要抓取的信息和图片url映射到排序框中，并为图片url设置下载图片，因为目录页面有很多页面，每页有多个产品信息，需要设置样本复印和自动翻页。最后用DS计数器采集把所有的图文都下来，如果要挑一个新的URL，只需要通过DS把URL添加到规则中即可。你不再需要制定规则，你可以批量采集数千条。甚至数十万个 URL 的数据。

　　商品详情页不难，方法和上面类似，只需要翻页，特别注意控制采集的速度和周期，虽然这个工具可以很高效，但是如果你想继续的话要批量采集，不要走得太快，否则电商网站会检测到异常，经常会弹出验证窗口，你会甚至无法访问网页。

<p>对于更复杂的方法，可以为B2B网站编写一个Python爬虫来爬取指定的网页和图形，但是每个B2B网站的结构都比较复杂。如果使用这种方式，需要不断的调试和测试，仅仅采集一个网站就需要一个月的时间来规划、编程、调试、运行优化等。如果换了网站@ >，改程序要花很长时间，所以大批量

0

2022-02-10

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(复杂点的办法可以针对B2B网站写个Python爬虫，爬取指定网页和图文)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(复杂点的办法可以针对B2B网站写个Python爬虫，爬取指定网页和图文)

0 个评论

发起人

相关问题