汇总:零一:用Excel采集淘宝 100页搜索数据
优采云 发布时间: 2022-11-21 16:48汇总:零一:用Excel采集淘宝 100页搜索数据
大家好,我是电商数据分析专家零一。
让我从一则广告开始。我是电商最权威的数据分析社区。每周发布原创蓝海产品资讯,帮助商家了解商机。如果您有兴趣,请来聊天。
进入正题,用Excel采集数据并不难,用VBA或者Power Query都可以实现。搜集淘宝100页的搜索数据不难,就是用Excel有点难。因为在淘宝反爬虫机制的作用下,100页就意味着搜索结果页被连续访问了100次。这并不难。
那么,还是从头说起吧,不然这篇文章会很沉重(大家看不懂)。
简单来说,采集
数据有三个过程,即找数、采集
数据、清洗数据。
找号就是从网页的源码或包中找数据,找到数据才能找到目标URL。
以淘宝搜索为例,搜索关键词茶烟后,浏览器上的网址。
%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在页面上点击鼠标右键,在菜单中查看源代码或者查看源代码,只要表达这个意思就对了,因为不同的浏览器有不同的称呼。
重要的一步,源代码页搜索前台看到的目标信息,比如标题或者价格。
搜索得到的解释数据都在这个URL中,所以上面的URL就是目标地址。
但是此时只有一页数据,而目标是100页,这个怎么建呢?
" />
s=44
s=88
s=132
通过观察2-4页URL的不同,不难发现该页是一个从0开始,以44为步长的等差数列。所以用Excel很容易实现,生成100页的网址。
这样,有了目标URL,就可以进入下一个链接了。
数据采集就是下载目标URL的文件。
将链接加载到 Power Query(查询编辑器)
有两个关键操作。第一点是添加cookie。如果没有 cookie,您将需要登录。
在开发者模式下(网页按F12),找到文档的cookie,复制cookie的内容。
在 Power Query 中添加 cookie 的内容。
之后,是时候下载数据了。要下载数据,请使用 Web.Contents 和 Text.FromBinary 将文件转换为文本,也就是我们在前台看到的 HTML。
" />
Text.FromBinary(Web.Contents(,[Headers=[#"cookie"=[cookie]]]))
但是此时这还不够,即使有cookie,在一定时间内过于频繁的访问淘宝搜索页面也会受到限制,所以还有第二个操作要点,就是加延迟。
Function.InvokeAfter(()=>采集过程, Duration.FromText("00:00:05"))
很明显,延迟设置为5秒,正常人应该在每个页面停留不少于20秒。设置5秒的目的是为了避免cookie过期。
把它们放在一起,整个功能是
Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))
这样可以下载100个网页文件,每个文件都以文本形式存在。
清洗是从下载的文件中提取目标数据。
这不是我今天要讨论的。这个提取数据的过程可能比以前下载网页要难,花费的时间可能是以前的两倍。
文章结束!
零一原创刊物
教程:优采云
优采云
Collector是一款*敏*感*词*的网页信息采集
工具。本软件采用了全新的信息采集方式,可以帮助用户更加快速的采集网页中的数据,并且可以分析各个网页模块,有选择地采集网页中的数据。很多用户在需要采集
网页内容时,大多是采集
网页的文字内容。由于还有一些用户不知道如何使用这款软件来采集网页的文字内容,那么小编就来给大家分享一下操作方法的具体步骤。有需要的朋友赶紧来看看小编分享的方法吧。希望本教程能对大家有所帮助。
方法步骤
1、首先,打开软件后,我们需要在软件主界面输入我们要采集的文字内容的网址。输入网址后,点击开始采集。
" />
2、点击开始采集后,软件会自动识别网站的网页界面,用户可以移动鼠标在网页中选择要采集的元素位置,点击选择后,选择在出现的界面中采集
元素的文本。
3、选择点击采集该元素文本选项后,界面会出现一个智能提示窗口,提示我们保存并开始采集操作,然后我们点击。
4、点击后,将进入采集
操作界面。稍等片刻,软件会回到采集完成的窗口,这时我们点击导出数据的按钮。
" />
5、点击导出数据按钮后下一步就是选择我们要导出的方式。小编将以HTML文件为例进行演示。点击选择按钮后,点击右下角的确定按钮。
6、最后点击确定按钮后,会来到另存为文件界面,然后我们在界面中输入要保存的文件的名称,然后点击保存按钮。
以上就是今天小编给大家分享的使用优采云
[url=https://www.ucaiyun.com/
]采集器软件采集网页文本内容的操作方法和步骤。需要采集素材的用户可以使用本软件进行采集。有兴趣的朋友们赶快试试小编分享的这个方法教程吧。