如何解决页面加载的问题?利用采集技术来解决!
优采云 发布时间: 2021-08-08 05:03如何解决页面加载的问题?利用采集技术来解决!
我们使用优采云采集器采集简书数据将标题、阅读、喜欢、评论导出到Excel表格中,然后与Excel的过滤和排序功能进行比较。太多了。这种简单的采集技术对我们采集和分析数据非常有帮助,省时省力。
在上一篇文章中,我们采集拿到了数据。仔细观察,会发现只有采集出九篇文章。事实上,当时文章的总数是31个。
采集complete.png
为什么采集只有9条数据?打开短书【我的主页】,虽然通过向下拖动滚动条可以看到文章的全部31篇文章,但实际上一个页面上常规显示的文章只有9篇。向下拖动时,有 9 篇文章。后面的数据需要不断的加载才能看到,这个加载的动作类似于翻页。我们在采集data时,默认只显示一页数据采集量,所以最后采集收到的数据只有9条。那么如何解决页面加载的问题,让所有文章data都是采集complete呢?使用【Ajax加载技术】。
Ajax 是一种无需重新加载整个网页即可更新网页的一部分的技术。通过在后台与服务器交换少量数据,Ajax 可以使网页异步更新。这意味着无需重新加载整个网页即可更新网页的某些部分。
对于 Ajax,我们没有编程基础。如果我们没有深入学习 IT 的计划,我们不需要深入了解它,只要我们知道如何使用它即可。
接下来我们添加ajax加载技术,再次使用优采云采集简书全文章标题、阅读数、点赞数、评论数。
一、Establish 采集task
按照上一篇文章的步骤,打开优采云,输入短书【我的主页】网址,保存网址,下一步创建采集任务。
创建采集task.png
二、open采集process
采集器 右上角有个【处理】按钮,平时是关闭的。点击它变成蓝色,打开流程框,可以看到网址和操作流程。点击右边的小箭头可以看到进程框中的几个操作选项。
打开采集process box.png
处理 box.png
三、使用Ajax加载技术
我们之前的采集信息不全是由于页面加载不完整导致的,所以我们在【页面加载后向下滚动】前面的框打勾,这样采集默认为页面加载完成时。 采集。 【滚动次数】我填了4次,因为我们上次采集发现后,一个页面默认9个文章,我总共有31个文章,需要翻4次,那个即,滚动加载只有4次才能显示到第31个文章。 【每个时间间隔】我填5秒,这个地方可以根据个人网速填,如果网速快负载快可以1秒填,如果网速慢,加载慢,10秒就可以填满。 【滚动方式】选择【直接滚动到底部】,因为我们想要采集简书【我的主页】中的所有文章信息,所以需要到底部(即最后一页)才能看到最早的一个文章。选择完成后,点击右下角的【确定】按钮。然后点击【进程】按钮关闭进程框,或者不关闭进程框,直接选择标题,启动采集即可。
Ajax 设置.png
需要注意的是采集中,在选择每个字段时需要等待页面加载完成才开始动作。
四、采集data
采集步骤参考上一篇文章如何快速统计短本的数据——优采云采集器(一)
采集 在这个过程中,我看到对话框中还显示了9条数据。这是因为对话框中显示的页数。我们设置好后,默认会拖到页面底部给采集(也就是默认采集翻页)。
采集Dialog.png
实现Ajax加载技术后,我们可以看到最终采集的结果是32个文章采集的阅读信息都出来了。然后将数据导出到Excel表格中进行编辑和比较。
采集全.png
优采云采集器的使用似乎很麻烦,只是因为我们不熟练使用它,很多动作都记不住。用好之后,动作自然会知道怎么做,不用想也能用好,不会觉得吃力,也不会累。
正如周明达先生所说:技术源于频率,精通的前提是要精通!