关键字文章采集器(关键字文章采集器获取源代码和基于协议字段post模式)
优采云 发布时间: 2022-01-20 15:04关键字文章采集器(关键字文章采集器获取源代码和基于协议字段post模式)
关键字文章采集器文章采集器是根据搜索者输入的关键字,利用爬虫抓取文章网站的全部网页内容,包括文章和图片。技术难点:获取网页源代码和基于协议字段转化为html,再分析。一、从采集网站获取源代码1.1网站规模:采集网站日均ip:3000左右,搜索量较大1.2日均访问量:搜索量较大(80000左右)1.3网站访问页面数:搜索量较大1.4网站截图:文章最大页面截图:1.5访问统计:以10天来统计,日均访问量为6000左右,站内top10文章,访问页数共4000页。
2.基于协议字段采集文章页面采集页面时,首先采集该url所对应的协议字段,获取该协议字段的基本内容,也就是访问该协议所对应的链接获取该url所对应的编码列表中所包含的文章url。2.1采集协议基本内容访问url与内容详情页url的url对应关系图:可以看到,urlhistory包含了该协议所有的协议字段,另外还有所有关键字作者评分,转发人次数等字段字段。
2.2采集编码完整列表转发到编码列表的具体内容请见请求报文内容中http协议的参数。需要注意的是,虽然可以通过修改http响应报文内容来实现http的v2编码方式(全双工,类似于get/post模式,采用tcp),但协议字段的编码格式需要小心处理(全双工,类似于get/post模式,采用tcp)。2.3使用编码格式设置对比get/post模式和http协议方式,采用schema+format方式设置urltocode,分别获取url和code为“5662657363736922373692237369222。