实时抓取网页数据(各个新媒体APP上的疫情地图,你了解多少?)
优采云 发布时间: 2022-02-14 20:19实时抓取网页数据(各个新媒体APP上的疫情地图,你了解多少?)
2020年注定是不平凡的一年。熙熙攘攘的春节市场已经失去了往日的喧嚣。突如其来的新冠肺炎疫情牵动着国人的心。想必很多人每天早上睁眼后的第一件事就是在新媒体APP上点击疫情地图,查看全国各省市的疫情数据。
在互联网高速发展的今天,大数据、云计算、人工智能等技术为疫情防控提供了有力支撑。其中,疫情信息的实时、准确、全面、生动的传递,做到了疫情信息量最大。透明度。这使亿万中国人民能够充分了解疫情发展的真实情况,做好必要的个人防护和充分的心理准备,从而有效减少疫情蔓延,保持最大程度的冷静和理性。
我们跟踪了很多新媒体平台,梳理了各个平台的疫情大数据服务。各平台提供的基本功能几乎相同,包括:
1. 疫情数据:展示全国、省、市累计和每日新增确诊/疑似/死亡/治愈病例数据,并通过疫情地图和各种形式的图表展示;
2.最新进展:聚合最新重要疫情信息,大部分为官方发布的不容错过的重要内容;
3.同程查询:可根据出行日期、车次/车牌/航班号、城市等查询确诊病例的具体行程信息,方便个人防控;
4.辟谣查实:对一些广为流传的疫情信息或防控方法的真伪进行鉴别;
5.发热门诊:提供各省市医疗机构信息,可以是文字或地图形式;
6.本地疫情:根据用户所在城市,显示本地确诊信息和本地相关疫情内容;
7.科普知识:个人防护知识、心理健康知识、疾病常识等。
那么,各种新媒体平台上的这些疫情数据和相关内容是从哪里来的呢?为什么某些平台上的数据略有不同?每个新媒体平台是如何获取和处理这些数据的?
首先,各个新媒体平台上的疫情核心数据几乎都是通过爬虫技术从国家和地方卫健委的官方网站根据他们的每日疫情报告文章提取出来的。之后,将这些数据汇总并以地图、趋势图等可视化图表的形式展示出来,方便大家。
如下图,湖北卫健委官方网站上,以短信形式发布疫情核心数据:
在各大新媒体平台上,数字依旧是那些数字,但呈现形式变得更加生动,如下图:
至于其他类型信息的来源,几乎都是一些官方渠道提供的文字信息或者可以公开搜索的信息,数据来源会更加丰富。除了国家卫健委的官方网站,其他政府部门也可能包括在内。、医疗机构、学术机构、权威媒体甚至意见领袖网站或自媒体等,这些新媒体平台在获得这些信息后,会对其进行处理,形成其他栏目,比如最新的进度、同流程查询、发热门诊、辟谣查实等。
例如,海南省卫计委官网以文字形式公布了确诊病例的移动轨迹,如下图:
在各大新媒体平台上,经过排序后,变成了同一个行程查询widget,如下图:
对于不同的新媒体平台,数据略有不同,因为不同的平台对数据的采集和处理策略不同。例如,一些新媒体平台只采集前一天24:00的全国数据,每天更新一次;而一些新媒体平台则不时捕捉部分省份发布的最新数据,并随时更新。加入。
因此,很多互联网公司并不能真正产生数据,而只是官方数据的搬运者、整合者和处理者。除了这些疫情大数据,还有企业征信查询、天气预报查询、航班信息查询、交通违章查询等诸多领域,也有一些熟悉的互联网公司在做类似的事情。
事实上,只要有需要,任何企业都可以批量、实时、准确地获取这些公开信息。当然,对于一些非互联网公司来说,获取这些公开信息的目的,并不是在处理后为普通用户打造互联网产品,而是与自己公司的业务和产品相结合,为自己的客户提供更全面的增值服务.
那么,如何进行数据采集呢?市面上有很多非常成熟的数据抓取工具,抓取过程也非常简单。一般来说,只需要以下三个步骤:
步骤 1:确定数据源规则
比如之前的卫健委网站,他们发布的信息内容的URL就是数据源。这些 URL 通常有一些常规名称,例如日期和数字。借助数据抓取工具,可以定期、自动、批量检索所有可能的网页,并从中提取符合采集规则的数据。当然,除了在源头抓数据,还可以抓一些新媒体平台处理的二手数据,因为这些二手数据已经被处理过了,数据格式可能会更整洁、简单捕捉。
第 2 步:确定数据采集 规则
由于捕获的数据需要存储在数据库中,因此数据库通常需要提前确定数据格式。因此,需要根据预先设计好的数据格式建立数据采集规则和数据模板,并在抓取数据的过程中,按照规则提取数据,以便后续数据保存. 比如数据源中的文本内容是“在xx,xx,xx,xx省新增xxxx确诊病例”,那么在数据采集规则中,需要收录日期字段,省份字段,新确诊病例字段,爬取时填写各个字段的内容。例如,“,”和“province”之间的文字是省的名称,可以在这条信息的省字段中填写,以此类推(如果您认为不准确,还可以设置“日”和“省”之间的文字,将“新”之间的文字抓取为省名等)。但是,如果要配置准确完整的采集规则,可能需要了解一点最基本的HTML语言,这样才能通过网页分析准确提取出需要的信息。
第三步:保存到数据库
前两步完成后,只要企业网络正常,数据库创建配置正确,数据采集就可以很方便的保存到企业数据库中使用。
以上只是披露信息的基本方式采集。另外还有一些网站,为了方便大家采集公开信息,他们会主动通过API开放自己的数据。企业只需要查找和调用这些API,就可以直接获取信息。结构化数据。同时,还会有一些“傻瓜式”爬虫工具,专门用于采集一些具体的网站和具体的内容,会先把要做的工作和第二步,帮助用户提前做好,用户不需要关心数据源和采集规则,只需要配置数据库即可使用。
最后需要强调的是,数据采集必须严格遵守法律法规和相应的版权声明。对于政府或企业声明禁止抓取或必须获得授权才能复制的内容,以及不适合公开的内容(如因设计漏洞而意外曝光的内容),请勿抓取以免造成严重的法律后果。
欢迎朋友们关注、评论和转发。商业转载或其他请联系:keji5u(科技无忧订阅号)