解读:原创文章自动采集第1节之后的数据如何进行格式转换
优采云 发布时间: 2022-10-20 09:16解读:原创文章自动采集第1节之后的数据如何进行格式转换
原创文章自动采集第1节之后在第2节中我们已经把网站的页面全部采集下来了,这时候我们不仅仅需要注意网站页面的采集工作,我们还需要考虑另外一个很重要的问题就是数据的存储。在之前的文章中已经给大家讲过,在采集完网站的页面之后呢,还需要对这些页面做一些标签的过滤,只要知道有哪些数据我们要采集,就可以大大的减少对系统压力的影响。
今天我们先不说这些,我们主要来认识一下样式表,详情看下面教程【小课堂4】什么是数据容器及数据的存储问题?由于我们需要进行数据的采集,所以就有一个前提的要求,那就是数据的采集是需要与页面一致的,不能混杂在一起。那么网站页面的数据如何同步我们呢?这个时候我们就要谈到一个东西叫做数据库的存储,页面的数据我们也叫页面数据。
数据库的存储是这样的,首先当我们采集完页面之后需要对页面进行处理之后,然后把我们采集的页面直接存储在数据库中,然后将这些数据提交到服务器,服务器存储好我们的数据之后,还需要更新数据,更新完成之后存储在数据库中。这里我们需要注意的是,数据库中存储的页面数据只能是全量的数据,我们之后把所有页面数据复制粘贴到同一个文件中,这个时候他们的标签名是不能一致的,是不可能的,这个和一个小篮子没有区别,大家再感受一下,这个小篮子太小。
那么页面数据如何进行格式转换呢?在进行页面数据的处理时,需要对页面中的属性进行处理,当页面数据进行转换时,我们需要把不同的属性添加到不同的位置,这样每一个页面的数据是可以完全匹配到的。比如我们之前的一个页面需要把abcdefghijklmnopqrstuvwxyz这11个字符转换成asdfghjklmnopqrstuvwxyz,那么我们首先要看看哪些属性在ascii码中是用u表示的,需要转换的就在里面,根据我们对页面的深入分析,就可以得到不同属性该怎么转换。由于篇幅有限,如果小伙伴对此有不明白的可以联系咨询我们哦!微信公众号:会python的渣渣辉。