excel抓取网页数据(【干货】2016年10月12日最新网页评价汇总 )

优采云 发布时间: 2021-10-10 20:07

  excel抓取网页数据(【干货】2016年10月12日最新网页评价汇总

)

  1、放映【差评】

  向下滚动页面到评论区,选择【商品评价】,在操作提示框中点击【点击该元素】,页面默认显示【所有评价】。

  此示例为 采集 过滤 [差评]。选择【差评】,在操作提示框中点击【点击此链接】,展开差评。

  

  特别说明:

  一种。[照片]、[发视频]、[评论]、[好评]、[中评]、[差评]的筛选方法也是一样的。需要过滤哪个分类,请在优采云点击哪个分类的步骤。

  2、设置【Ajax】加载

  此页面的【差评】按钮使用ajax加载,无法查看新标签页。

  进入【点击元素1】设置页面,取消勾选【在新标签页中打开】,勾选【Ajax加载数据】,选择【Ajax超时】5-7秒,然后保存。

  

  特别说明:

  一种。对于使用 Ajax 技术的网页,一般不要勾选【在新标签页中打开】。【Ajax超时】请根据采集要求和网页加载情况进行设置。它不是静态的。详情请点击查看Ajax教程。

  步骤四、创建【循环列表】,采集所有评价数据

  1、创建【循环列表】

  通过以下3个连续步骤,创建一个【循环列表】,

  ① 在页面上选择 1 个评论列表

  ② 继续选择页面第二个评价列表

  ③在操作提示框中,点击【采集以下元素文字】

  此时将整个评价列表提取为整个字段,如手动将列表中的字段一一提取。

  

  特别说明:

  一种。经过以上连续3个步骤,就完成了【Cycle-Extract Data】的创建。【周期】中的项目对应页面上的所有评价列表。此时将整个评价列表提取为整个字段,如手动将列表中的字段一一提取。

  湾 为什么我们可以通过以上3步设置【循环提取数据】?详情请点击查看列表数据采集教程。

  2、修改【循环列表】XPath

  为了准确采集到所有差评,需要修改【循环列表】XPath。

  进入【循环列表】设置页面,修改XPath为//div[@id='comment-6']/div[position()

  

  特别说明:

  一种。默认生成的【循环列表】会定位在其他分类的评价中,无法准确采集差评,所以需要手动修改XPath。这里需要一些 XPath 知识。单击以查看 XPath 学习和示例教程。

  湾 除了默认的[All Evaluations],采集的所有其他类别都需要相应地修改XPath。

  [视频列表]://div[@id='comment-2']/div[position()

  [评论]://div[@id='comment-3']/div[position()

  [赞]://div[@id='comment-4']/div[position()

  [评论]://div[@id='comment-5']/div[position()

  3、提取字段

  在网页上,找到当前的评论列表(红色框)

  选择目标字段,然后在操作提示框中点击【采集元素的文本】。

  可以通过这种方式提取文本字段。在示例中,我们提取了评价者、评论文本、评价星级、产品参数、评价时间等字段。

  

  特别说明:

  一种。一定要选择当前评价列表中的评价星提取星域,否则提取的星域无法与【循环】中的评价列表关联,会不断重复采集某个评价列出星星。

  湾 如何找到当前的评论列表?在【循环列表】中查看当前项目(蓝色背景),然后点击【提取列表数据】,网页上红框框出的评价列表即为当前评价列表。

  

  4、编辑字段

  在【当前页面数据预览】界面,可以进行删除字段、修改字段名称等操作。

  

  步骤五、创建循环翻页,到采集多页数据

  1、创建【循环翻页】

  如果只有采集一页数据,可以跳过这一步。

  如果需要翻页到采集多页数据:选择页面中的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。

  

  特别说明:

  一种。创建完【循环翻页】后,优采云会自动点击【下一页】按钮进行翻页,从第一页、第二页……一直到最后一页。如果只需要特定页面采集的数据,可以在优采云中设置翻页的周期数。详情请点击查看翻页采集多页数据教程。

  2、修改【圆形翻页】的XPath

  默认的【循环翻页】XPath无法准确定位差评的翻页,需要修改【循环翻页】XPath。

  进入【循环翻页】设置页面,修改XPath为://div[@id='comment-6']//div[@class="ui-page"]//a[@class="ui" -pager -next"] 并保存。

  同时将【点击翻页】的【ajax超时】时间调整为5秒。

  

  特别说明:

  一种。默认生成的【循环翻页】会定位其他分类的翻页按钮,无法准确采集差评,需要手动修改XPath。这里需要一些 XPath 知识。单击以查看 XPath 学习和示例教程。

  湾 除了默认的[All Evaluations],采集的所有其他类别都需要相应地修改XPath。

  [视频列表]://div[@id='comment-2']//div[@class=“ui-page”]//a[@class=“ui-pager-next”]

  [复习]://div[@id='comment-3']//div[@class="ui-page"]//a[@class="ui-pager-next"]

  [赞]://div[@id='comment-4']//div[@class=“ui-page”]//a[@class=“ui-pager-next”]

  [评论]://div[@id='comment-5']//div[@class="ui-page"]//a[@class="ui-pager-next"]

  C。对于使用Ajax技术的网页,优采云会自动判断并设置【Ajax超时】。如果系统自动设置的时间太短,可根据采集要求和网页加载情况相应延长。详情请点击查看Ajax教程。

  步骤六、开始采集

  1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。

  

  特别说明:

  一种。[本地采集]为采集使用自己的电脑,[cloud采集]为优采云提供的云服务器采集,点击进入查看本地采集和cloud采集的详解。

  2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。

  

  样本数据:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线