文章采集程序的代码、演示文件放在了公众号下方

优采云 发布时间: 2022-07-16 05:05

  文章采集程序的代码、演示文件放在了公众号下方

  文章采集程序的代码、演示文件放在了公众号二维码下方,其中我截取了其中几段代码,文中会再次提示。感兴趣的同学可以多了解相关的原理。数据方面,文章初期采集的数据有630篇文章,其中有476篇存入阿里云服务器,3篇存入云服务器备份文件,其余390篇存入云服务器及存储文件。本次分析用了10天,会持续更新一段时间,欢迎大家关注我们的博客!微信公众号后台回复“041”即可获取上期数据。

  一、数据预处理1.注册服务器机名首先需要将服务器注册,建议随机生成,这样网站以后用起来更便捷。初始的机器名为thesoflex_taobao.xyz,经过我测试此名称已经不能用,所以一般改名字会作为唯一标识,其次机器名改为thesoflex_taobao2.5v2.2_y16_z24,然后再将机器名解析到ip地址,如图1-3所示,将机器名转化为ip地址。

  

  然后将所有数据从阿里云云服务器上拷贝到对应云服务器中,比如本次我们就将所有文章中的图片数据(打包后),传入到了云服务器的ipv4网段上。机器名为thesoflex_taobao.xyz.,ipv4网段为host2,主机名thesoflex_taobao.xyz.x264,如图1-4所示。2.上传图片及其他文件后,需要删除cookie到此,我们已经做完了网站域名解析和云服务器下载数据的前期工作,继续往下看。

  3.部署好云服务器后(7天之内),我们需要完成实际发送测试请求请求如图1-5所示,这个是测试请求,因为后面运营人员看不到文章并读取,这个时候请求的结果就等于部署好了我们的服务器。图1-5请求测试请求的方式就是尝试请求,可以得到返回的图片和文章内容。4.正式测试网站获取数据网站首页有标明文章名称、文章id等内容,我们就将所有的文章id获取,并作为对应ip的location,利用base64去除不必要的,即只去除程序员提取出来的ip。

  

  网页首页所需数据如图1-6所示。图1-6文章id网站首页所需数据如图1-7所示,这里除了上图页面数据,其他数据都是私信本公众号后台获取的,感谢大家提供了不少数据,下次我会不定期更新~~。

  二、数据分析

  一)文章数据情况经过我们的分析和回测,我们有以下结论。无论文章发布还是下载,刷新都是200次,总页数2233次。“设置”项字段设置的有效期最长有3天,最短有1天,有效期内所发布的文章总页数为1152页,最少为8页。“排行榜”项字段:发表日期和下载总页数有效期为1天,最多有24天,其中最短有24天,其中最长有15天,我们可以发现,出现提交未提交者数量最高的是上午10:00的开。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线