解决方案:阿里云监控插件

优采云 发布时间: 2022-11-24 02:25

  解决方案:阿里云监控插件

  阿里云监控是阿里云原厂为中小型网站提供的各类应用和服务器的第三方监控服务。任何系统异常都可以及时通知用户,并及时处理异常,从而提高用户产品的易用性。

  

" />

  阿里云监控插件是上述产品的具体表现形式,支持Windows和Linux平台。阿里云主机默认没有安装云监控插件。目前,阿里云的云监控服务仅提供云主机CPU占用率、网络进出流量、网络进出流量等监控数据。安装云监控插件后,云主机会获取内存使用率、平均负载、磁盘IO写入、磁盘使用率、TCP连接数、进程总数等监控数据。

  如果您计划在行云管理器中使用阿里云监控来监控主机性能,您必须确保已经安装了阿里云监控插件。

  

" />

  您可以继续阅读以下内容,也可以到阿里云官网阅读更多关于云监控插件的介绍:阿里云云监控插件官网介绍

  解决方案:如何优雅地使用python采集阿里巴巴百万商户信息

  我们先观察这个页面的url,这个页面的url是:,我们可以发现商户页面的url有一条规则,说明这些商户的页面都是来自一个模板,html结构为一样,但是css样式表存在差异,这是一个好兆头,为我们采集

大量数据奠定了基础。而在*敏*感*词*中,我们可以看到很多厂家的信息,包括电话,手机号,地址,公司主页,联系人,旺旺号等等,查看源码可以发现它的排列是有规律的。

  说了这么多,我们差不多要开始写代码了,发现必须要手机登录才能看到。这时候,Selenium 就派上用场了。我们首先使用Selenium自动打开浏览器并跳转到指定网站,并自动输入密码和帐号并点击登录。使用Selenium打开Firefox浏览器的代码如下:

  打开火狐浏览器

  上述程序可以打开火狐浏览器窗口,打开浏览器窗口的对象是驱动程序。接下来,我们模拟登录。通过观察,我们可以找到阿里巴巴模拟登录的地址。我们用这个地址模拟登录,使用selenium的find_element_by_name方法获取网页中的DOM节点,学过JavaScript的同学应该知道DOM节点,具体代码如下:

  使用硒登录

  使用selenium模拟登录的关键点是找到登录密码框和提交表单的按钮。找到之后,把里面的值传进去,然后模拟点击登录。上面用到了find_element_by_name,意思是找到name="TPL_username"的DOM节点,输入一串字符串。

  模拟登录成功后,我们让页面自动跳转到刚才搜索“化工”厂家的页面。time包中的sleep函数是为了防止网速不好时网页加载速度变慢而使用的。源码 在下载完成之前执行查找节点的命令导致程序失败。接下来我们要做的就是搜索厂商的主页,找到它的*敏*感*词*,发现厂商找到的结果一共有100页。这里为了使用方便,我们直接使用for循环模拟点击下一页进行采集

  

" />

  接下来,我们创建一个新的 csv 文件。原项目比较大,收录了很多领域。作为教程,我们提取了一些字段(公司名称、主页、产品、联系人、电话号码、地址)并存储采集

的数据。写入csv文件,具体代码如下:

  创建 csv 文件

  创建 csv 后,通常会设置代理。添加这个是为了防止网站设置反爬虫设置。网上有很多常用的代理。让我们复制一个并整理一下。代码和注释如下所示:

  反爬虫设置

  做了这么多前期工作,接下来我们就可以开始写爬虫的代码了。爬虫实际上并不关心匹配来自不规则网页的必填字段。我们可以使用正则化。从上面的分析来看,我们需要在搜索页面点击商户名称,然后进入商户首页。这时候我们需要先获取重定向的url,使用python的urllib2包中的方法获取网页源码。我们先来看几个规则:

  定义采集

规则

  我们可以看到title标题的正则表达式采集

了一个列表,我们需要的商家的url就在这个正则表达式中。我们使用for循环遍历采集

到的列表,得到我们需要的url。代码如下:

  

" />

  采集

网址

  现在我们已经成功获取到了各个商户的页面源码,接下来就可以定时提取页面了。我们之前已经写好了想要的字段的正则抽取规则,因为有些字段可能是空的。该字段进行异常捕获处理,以提高程序的健壮性。代码如下:

  现场比赛

  至此,我们已经匹配了字段。接下来,我们将采集到的数据写入csv文件。编码在不同平台下可能不同。你可以参考一下。代码如下:

  写入csv文件

  我们在for循环中采集

一页,发现一共有100页,所以我们需要写翻页操作。我们将浏览器滚动到底部,找到它的“下一页”的dom节点,点击操作,我们就可以开始下一页了,具体代码如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线