官方数据:爬取国家地表水水质自动监测实时数据
优采云 发布时间: 2022-12-12 02:48官方数据:爬取国家地表水水质自动监测实时数据
更新 (2022/8/22)
删除原文章代码,此文仅留作纪念,急需的朋友可以在评论区请教大佬,学习非暴力采集数据,力争顶,拒绝暴力采集,共同维护安全、美好的上网环境。
更新 (2022/7/30)
本来以为这个文章 看的人不多,没想到这么多零散的评论。
真不明白,既然那么多人需要这个数据,官网为什么不整理出来放出来……
可能爬的人太多了,网站设置反爬虫?简而言之,程序无法运行。
目前已知问题:
(1) 将网站替换为::8068/GJZ/Business/Publish/Main.html
(2)当前程序遇到的问题是:网站手动打开是正常的,但是程序是空白的,无法获取数据。百度提供的简单的反爬虫检测方法大部分都不行(基本上我都试过了)。有几种方法有用,但比较麻烦,需要一定程度的人工操作。我什至觉得还是写个脚本或者找人截图倒数比较好。
(3) 接触这方面的不多,不知道会不会有违法违规的地方,就这样吧。
原文 (2022/6/2)
最近老师给了个新任务,大概是获取网站106.37.208.243:8068/GJZ/Business/Publish/Main.html的数据,还给了一个博客(86条)爬取全国地表水水质自动监测实时数据发布系统!动态爬虫!_攀登天下无敌博客-CSDN博客_以国家地表水水质自动监测站实时监测数据发布系统为向导。
之前对爬虫几乎一无所知,所以要混的很辛苦。有兴趣的朋友可以自己研究。如果你正好和我一样在做这个任务,也爬过这个网站,那你可以看看。修改代码在最后运行。另外,可以的话请点个赞,谢谢。
打开博客,看到2020-07-30,今天是2022-06-02...嗯,考虑到时效性,估计80%的代码无法使用,运行时报各种错误. 害,不管了,先收拾行囊。
包装
import datetime
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
<p>
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options #建议使用谷歌浏览器
import time</p>
pandas比较容易安装,bs4还可以,但是这个selenium好像有点麻烦,研究一下吧。
超级详细!Anaconda环境下如何安装Chromedriver和Selenium- 知乎 ()
(86条留言)anaconda下安装selenium_hrainning博客-CSDN blog_anaconda selenium
在anaconda下安装selenium包-知乎()
在此处参考这些文章 文章。由于我直接用pycharm导入了conda环境,所以好像没有修改系统的环境变量。另外记得把下载的文件复制到anaconda的script文件夹下。我这里是miniconda,不过也有类似的文件夹,放进去就行了。
代码修改
删除
伪原创工具 意外:自动驾驶_预测
程序介绍: PNC浏览器是一款智能PNC工具软件,可实现自动采集、自动发布、自动SEO、自动推广等。PNC浏览器的由来:我们在制作网站和编辑内容的时候,发现采集发布等市面上的PNC站长工具无法满足需求,于是开始打造一款实用的站长工具软件 - “PNC 浏览器”。PNC浏览器功能与特点: 1、浏览器:绿色、小巧、便携的浏览器,站长和普通用户都可以使用;2、采集器:强大的数据抓取能力,“所见即所得”,只要是PNC浏览器能看到的文字、图片、附件都能抓取;*内置-在规则、智能规则和服务器规则中,在一定程度上实现普通用户无需编写规则即可上手。使用方便,当然用户也可以编辑自己的采集规则,实现个性化的采集需求;3、Publisher:自带丰富的发布接口,服务器端无需安装数据库接口,普通用户几分钟即可上手,添加发布网站、采集内容。兼容主流论坛、cms、博客源程序、免费博客,实现自动发帖、发帖文章、置顶、补水、抢沙发等网站相关的发帖操作,等等,还可以使用强大的自编辑发布规则,可以实现任意网站自动发布;国内领先的模拟出版技术,只要在PNC浏览器中可以正常进行手动发布,那么也可以使用PNC浏览器实现自动发布。4.PNC伪原创:自动伪原创,在采集--发布过程中内容可以是伪原创;5.PNC站群:数字重量,灵活组合,轻松实现内链、外链、链轮、混合链;6. 规则:强大的规则系统“采集规则、发布规则、独有的webpig语言(p语言)”,用户可以编写自己的规则,实现个性化的采集发布需求。更*敏*感*词*请参考官网:采集--发布过程中;5.PNC站群:数字重量,灵活组合,轻松实现内链、外链、链轮、混合链;6. 规则:强大的规则系统“采集规则、发布规则、独有的webpig语言(p语言)”,用户可以编写自己的规则,实现个性化的采集发布需求。更*敏*感*词*请参考官网:采集--发布过程中;5.PNC站群:数字重量,灵活组合,轻松实现内链、外链、链轮、混合链;6. 规则:强大的规则系统“采集规则、发布规则、独有的webpig语言(p语言)”,用户可以编写自己的规则,实现个性化的采集发布需求。更*敏*感*词*请参考官网: