最佳实践:阿里巴巴企业名录采集教程

优采云 发布时间: 2022-12-12 11:38

  最佳实践:阿里巴巴企业名录采集教程

  本文介绍了如何使用 优采云采集 阿里巴巴企业名录。采集网站:

  %CE%E5%BD%F0&button_click=top&earseDirect=false&n=y

  阿里巴巴企业名录采集数据说明:本文仅以“阿里巴巴-供应商搜索-硬件所有企业信息采集”为例。在实际操作过程中,您可以根据自己对数据的需求更改阿里巴巴的搜索词采集。

  阿里巴巴企业名录采集 内容说明:企业名称、*敏*感*词*营产品、企业所在地、企业员工人数、企业经营模式、企业处理方式、企业累计交易笔数、企业重复购买率。

  使用功能点:

  l分页列表信息采集

  lXpath

  第一步:创建阿里巴巴企业名录采集任务

  1)进入优采云采集器主界面,选择自定义模式

  阿里巴巴企业名录 采集 第 1 步

  2)将上述网址的网址复制粘贴到网站输入框,点击“保存网址”,阿里巴巴企业名录采集的任务就创建好了。

  阿里巴巴企业名录 采集 第 2 步

  第 2 步:创建阿里巴巴企业名录翻页循环

  l 找到翻页按钮,设置翻页周期

  l 设置ajax翻页时间

  l 设置滚动页面

  1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧的操作提示框中,选择“循环点击下一页”选项。

  

  阿里巴巴企业名录 采集 第 3 步

  第三步:阿里巴巴企业名录信息 采集

  l 使用Google或Firefox观察源码,确定企业信息的xpath

  l 提取企业信息

  1)打开火狐或者谷歌浏览器,我用的是谷歌浏览器,将鼠标移动到企业信息栏,观察代码,可以发现整个企业信息的xpath是//div[@class="wrap"] ,这样就可以把整个企业数据作为一个循环,然后分别提取标题、主要产品、所在地、员工人数等企业数据。

  阿里巴巴企业名录 采集 第 4 步

  2)观察公司名称的源码,可以发现公司名称的xpath为

  //div[@class="列表项标题"]

  企业具体信息的xpath为

  阿里巴巴企业名录 采集 第五步 - 企业名称的xpath

  阿里巴巴企业名录 采集 第六步-企业具体信息的xpath

  3)在流程图的左侧,可以拖拽一个循环,将数据提取到流程图中。

  阿里巴巴企业名录 采集 第 7 步

  4)点击刚才拖入流程图的循环模块,将图片采集的循环方式设置为不固定元素列表,在xpath前填写观察源码得到的代码(//div[@ class="wrap" ]) 然后单击确定。

  

  阿里巴巴企业名录 采集 第 8 步

  5)提取元素选择添加空字段(第9步),命名为企业名称,第10步选择自定义数据字段(第10步),在弹出框中选择自定义定位元素,结合xpath之前分析过,如下图第11步设置,还是这个框,第12步设置自定义抓包方式如下图。

  同样,企业的具体信息也采用同样的方式进行设置。自定义定位元素中元素匹配的Xpath设置是//div[@class="wrap"]/div[@class="list-item-detail"],相对于Xpath设置是/div[@ class="list-item-detail"],自定义获取方法设置为获取文本。

  阿里巴巴企业名录 采集 第 9 步

  阿里巴巴企业名录 采集 第 10 步

  阿里巴巴企业名录采集 Step 11 - 自定义定位元素设置方法

  阿里巴巴企业名录 采集 第十二步 - 自定义爬取方式

  6)修改采集任务名称和字段名称,点击下方提示中的“保存并启动采集”

  7) 根据采集的情况选择合适的采集方式,这里选择“Start local采集”

  阿里巴巴企业名录 采集 第 13 步

  注意:本地采集为采集占用当前电脑资源,如果有采集时间要求或者当前电脑长时间不能执行采集,可以使用云采集功能,云采集在网络采集中进行,没有当前电脑的支持,可以关闭电脑,多个云节点可以设置分担任务,10个节点相当于10台电脑分担任务,帮你采集,速度降低到原来的十分之一;采集获得的数据可在云端保存三个月,并可随时导出。第四步:阿里巴巴企业名录数据采集及导出

  1)采集完成后,会弹出提示,选择导出数据

  2)选择合适的导出方式导出采集好的数据

  最佳实践:java基础;spring boot学习;微服务;Java教程;Java web

  演示站:

  (备注2018-06-05:由于服务器迁移到腾讯云,导致无法访问记录,导致腾讯云屏蔽我,我正在重新备案,网站目前无法访问访问,即使我可以,内容页面是为了备案,请见谅)

  一、环境要求 linux+nginx+php5.6+mysql5+Memcache

  2、建议安装宝塔linux系统环境,构建网站,在伪静态文件夹工具下添加nginx.conf内容:if (!-e $request_filename) { rewrite ^/(.* )/index.php? s=$1 最后;}

  3.给目录777权限,否则无法安装自动采集

  4.设置好后,直接打开你的网站,根据提示填写网站的名字,数据库链接信息,设置后台账号密码...

  5、然后去后台配置采集信息或者导入采集规则,添加任务。慢慢研究。

  1.源码下载

  源码下载:

  2. 采集规则下载

  上传一些后台采集规则(规则都是小灰灰自己写的,当然也有一小部分参考了别人写的)

  规则:

  

  ptcms_Yunlaige_2.txt(4.99 KB, 下载次数: 241)

  ptcms_37中文网_2.txt(3.48 KB, 下载次数: 167)

  ptcms_79 Literature_2.txt(3.27 KB, 下载次数: 144)

  ptcms_88读书网_2.txt(3.19 KB, 下载次数: 100)

  ptcms_八一中文网-主页_2.txt(3.34 KB, 下载次数: 122)

  ptcms_笔下文学-采集rules_2.txt(3.42 KB, 下载次数: 149)(5月31日新增)

  ptcms_New Biquge_2.txt(3.3 KB, 下载次数: 180) (6月1日新增)

  ptcms_Apex Novels_2.txt(3.27 KB,下载次数:224)(6 月 2 日添加)

  

  ptcms_E novel-home page_2.txt(3.9 KB, 下载次数: 184) (6月3日新增)

  如果你有小说站点需要为ct编写采集规则,也可以提供站点网址,小灰灰会编写规则,有空上传。

  3.PC版的分类和排行榜的修复,把文件放在对应的目录下即可~

  pt分类排名修复.rar(2.39 KB, 下载次数: 181)

  如图所示:

  5.补充问题:(2018-06-03)

  (1)如果安装后出现404,那肯定是你的伪静态规则有问题。上面提供的伪静态规则是 Ng。如果你用Apache,请自己转换(偷偷告诉你,伪静态规则在tool文件夹里。)

  (2)采集完成后会显示转码失败,可​​在后台设置项:转码阅读显示方法:修改为直接在此处显示即可解决问题

  (三)其他需要补充的问题

  有回复就有动力。天冷了,我连规矩都懒得分享了。有用的话我会点赞回复的,或者大家有什么问题请告诉我,不然就荒废了~

  可以的话记得多给分哦~~~~

  小灰灰缺我的爱情币

  谢谢亲爱的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线