chrome抓取网页插件( Python使用Chrome插件实现爬虫,文中通过示例代码介绍)

优采云发布时间: 2021-12-26 11:25

　　chrome抓取网页插件(

Python使用Chrome插件实现爬虫,文中通过示例代码介绍)

　　Python使用Chrome插件实现爬取流程图

　　更新时间：2020-06-09 12:07:13 作者：Johnthegreat

　　本文主要介绍Python使用Chrome插件实现爬虫。文章中介绍的示例代码非常详细。对大家的学习或工作有一定的参考学习价值。有需要的朋友可以参考

　　做电商的时候，消费者对产品的评论很重要，但是如果你不会写代码怎么办？这里有一个Chrome插件，不用写一行代码就可以做简单的数据爬取。下面显示了一些捕获的数据：

　　可以看到抓取到的地址、评论者、评论内容、时间、商品颜色都被抓取了。那么，需要哪些工具来抓取这些数据呢？就两个：

　　1. Chrome 浏览器；

　　2. 插件：Web Scraper

　　插件下载地址：

　　最后，如果你想自己抢，这里是这个抢的详细过程：

　　1. 首先复制以下代码。是的，您不需要编写代码。但是为了开始，仍然需要复制代码。以后可以自己定制选择，不用写代码。

{

"_id": "jdreview",

"startUrl": [

"https://item.jd.com/100000680365.html#comment"

],

"selectors": [

{

"id": "user",

"type": "SelectorText",

"selector": "div.user-info",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": 0

},

{

"id": "comments",

"type": "SelectorText",

"selector": "div.comment-column > p.comment-con",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": 0

},

{

"id": "time",

"type": "SelectorText",

"selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": "0"

},

{

"id": "color",

"type": "SelectorText",

"selector": "div.order-info span:nth-of-type(1)",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": 0

},

{

"id": "main",

"type": "SelectorElementClick",

"selector": "div.comment-item",

"parentSelectors": [

"_root"

],

"multiple": true,

"delay": "10000",

"clickElementSelector": "div.com-table-footer a.ui-pager-next",

"clickType": "clickMore",

"discardInitialElements": false,

"clickElementUniquenessType": "uniqueHTMLText"

}

]

}

　　2. 然后打开chrome浏览器，在任意页面同时按下Ctrl+Shift+i，在弹出的窗口中找到Web Scraper，如下：

　　3. 如下

　　4. 如图，粘贴上面的代码：

　　5. 如图，如果需要自定义URL，注意替换。URL 后面的#comment 是评论的链接，不能删除：

　　6. 如图：

　　7. 如图：

　　8. 如图，点击Scrape后会自动运行打开需要抓取的页面。不要关闭窗口，安静地等待完成。完成后，右下角会提示完成。一般1000以内的评论不会有问题：

　　9. 最后点击下载到电脑，数据就保存了。

　　使用此工具的好处是：

　　1. 无需编程；

　　2. 京东的评论基本可以用这个脚本，修改对应的url即可；

　　3. 如果需要抓取的评论少于1000条，这个工具会很好，所有数据都会自动下载；

　　使用注意事项：

　　1. 一次捕获的数据会被记录下来，如果立即再次捕获将不会保存。建议关闭浏览器重新打开再试；

　　2. 抓取次数：1000以内没有问题，可能是京东直接根据IP屏蔽了更多的抓取；

　　如果你的英文水平不错，可以尝试阅读官方文档，进一步学习定制自己的爬虫。

　　官方教程：

　　以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本屋。

0

2021-12-26

chrome抓取网页插件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

chrome抓取网页插件( Python使用Chrome插件实现爬虫,文中通过示例代码介绍)

0 个评论

发起人

AI时代内容工厂

chrome抓取网页插件( Python使用Chrome插件实现爬虫,文中通过示例代码介绍)

0 个评论

发起人

相关问题