excel抓取网页数据(【干货】2016年10月12日最新网页评价汇总 )
优采云 发布时间: 2021-10-10 20:07excel抓取网页数据(【干货】2016年10月12日最新网页评价汇总
)
1、放映【差评】
向下滚动页面到评论区,选择【商品评价】,在操作提示框中点击【点击该元素】,页面默认显示【所有评价】。
此示例为 采集 过滤 [差评]。选择【差评】,在操作提示框中点击【点击此链接】,展开差评。
特别说明:
一种。[照片]、[发视频]、[评论]、[好评]、[中评]、[差评]的筛选方法也是一样的。需要过滤哪个分类,请在优采云点击哪个分类的步骤。
2、设置【Ajax】加载
此页面的【差评】按钮使用ajax加载,无法查看新标签页。
进入【点击元素1】设置页面,取消勾选【在新标签页中打开】,勾选【Ajax加载数据】,选择【Ajax超时】5-7秒,然后保存。
特别说明:
一种。对于使用 Ajax 技术的网页,一般不要勾选【在新标签页中打开】。【Ajax超时】请根据采集要求和网页加载情况进行设置。它不是静态的。详情请点击查看Ajax教程。
步骤四、创建【循环列表】,采集所有评价数据
1、创建【循环列表】
通过以下3个连续步骤,创建一个【循环列表】,
① 在页面上选择 1 个评论列表
② 继续选择页面第二个评价列表
③在操作提示框中,点击【采集以下元素文字】
此时将整个评价列表提取为整个字段,如手动将列表中的字段一一提取。
特别说明:
一种。经过以上连续3个步骤,就完成了【Cycle-Extract Data】的创建。【周期】中的项目对应页面上的所有评价列表。此时将整个评价列表提取为整个字段,如手动将列表中的字段一一提取。
湾 为什么我们可以通过以上3步设置【循环提取数据】?详情请点击查看列表数据采集教程。
2、修改【循环列表】XPath
为了准确采集到所有差评,需要修改【循环列表】XPath。
进入【循环列表】设置页面,修改XPath为//div[@id='comment-6']/div[position()
特别说明:
一种。默认生成的【循环列表】会定位在其他分类的评价中,无法准确采集差评,所以需要手动修改XPath。这里需要一些 XPath 知识。单击以查看 XPath 学习和示例教程。
湾 除了默认的[All Evaluations],采集的所有其他类别都需要相应地修改XPath。
[视频列表]://div[@id='comment-2']/div[position()
[评论]://div[@id='comment-3']/div[position()
[赞]://div[@id='comment-4']/div[position()
[评论]://div[@id='comment-5']/div[position()
3、提取字段
在网页上,找到当前的评论列表(红色框)
选择目标字段,然后在操作提示框中点击【采集元素的文本】。
可以通过这种方式提取文本字段。在示例中,我们提取了评价者、评论文本、评价星级、产品参数、评价时间等字段。
特别说明:
一种。一定要选择当前评价列表中的评价星提取星域,否则提取的星域无法与【循环】中的评价列表关联,会不断重复采集某个评价列出星星。
湾 如何找到当前的评论列表?在【循环列表】中查看当前项目(蓝色背景),然后点击【提取列表数据】,网页上红框框出的评价列表即为当前评价列表。
4、编辑字段
在【当前页面数据预览】界面,可以进行删除字段、修改字段名称等操作。
步骤五、创建循环翻页,到采集多页数据
1、创建【循环翻页】
如果只有采集一页数据,可以跳过这一步。
如果需要翻页到采集多页数据:选择页面中的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。
特别说明:
一种。创建完【循环翻页】后,优采云会自动点击【下一页】按钮进行翻页,从第一页、第二页……一直到最后一页。如果只需要特定页面采集的数据,可以在优采云中设置翻页的周期数。详情请点击查看翻页采集多页数据教程。
2、修改【圆形翻页】的XPath
默认的【循环翻页】XPath无法准确定位差评的翻页,需要修改【循环翻页】XPath。
进入【循环翻页】设置页面,修改XPath为://div[@id='comment-6']//div[@class="ui-page"]//a[@class="ui" -pager -next"] 并保存。
同时将【点击翻页】的【ajax超时】时间调整为5秒。
特别说明:
一种。默认生成的【循环翻页】会定位其他分类的翻页按钮,无法准确采集差评,需要手动修改XPath。这里需要一些 XPath 知识。单击以查看 XPath 学习和示例教程。
湾 除了默认的[All Evaluations],采集的所有其他类别都需要相应地修改XPath。
[视频列表]://div[@id='comment-2']//div[@class=“ui-page”]//a[@class=“ui-pager-next”]
[复习]://div[@id='comment-3']//div[@class="ui-page"]//a[@class="ui-pager-next"]
[赞]://div[@id='comment-4']//div[@class=“ui-page”]//a[@class=“ui-pager-next”]
[评论]://div[@id='comment-5']//div[@class="ui-page"]//a[@class="ui-pager-next"]
C。对于使用Ajax技术的网页,优采云会自动判断并设置【Ajax超时】。如果系统自动设置的时间太短,可根据采集要求和网页加载情况相应延长。详情请点击查看Ajax教程。
步骤六、开始采集
1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。
特别说明:
一种。[本地采集]为采集使用自己的电脑,[cloud采集]为优采云提供的云服务器采集,点击进入查看本地采集和cloud采集的详解。
2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。
样本数据: