免规则采集器列表算法(前两天突然接到领导一个邮件,让我用优采云采集互联网数据)
优采云 发布时间: 2022-04-20 20:21免规则采集器列表算法(前两天突然接到领导一个邮件,让我用优采云采集互联网数据)
前两天突然收到领导发来的邮件,要我使用优采云采集网络数据。以下是邮件原文:
我对可视化工具有很多了解,但如果不复杂的话,你应该有点主观。没办法,我来对应吧。
首先登录官网:,下载客户端安装,傻瓜式下一步安装完成。我不需要免费帐户,公司买了一个。
这是这个工具的界面,很简单。最重要的是任务栏和工具箱栏。任务栏可以先建立一个任务组,在任务组下创建具体的任务。接下来我会一一讲解具体的任务。
我的采集是中国土地市场网的结果公告,网址如页面所示:
需要的信息采集是列表的内容和点击进入列表后的详细信息。当然,我的示例是从列表中选择一项,详细信息选择一项。还有一点,这个清单需要翻一下,一共200页,每页30条。
1、创建任务:点击新建,选择自定义采集,输入网址,点击保存。
出来的页面是这样的:
2、现在我要采集序列号栏,用鼠标点击1.,然后选择全选:
选择采集下面的元素文本。此时列表信息可以是采集。
3、点击下钻到详情栏的超链接,然后选择点击链接:
下面会跳转到详情页。我将采集项目名称,点击对应文字,选择采集元素的文字,详细信息可以是采集。
4、我们的采集工作完成了,但是还是要循环翻页,点击返回上一页:
找到下一页按钮,单击它,然后选择循环浏览各个链接:
然后点击左上角的保存,所有步骤都完成了,我们可以看一下流程图:
这样一个采集的任务就完成了,接下来就可以点击开始采集按钮进行测试了。
转载于: