文章伪原创查询(江苏网站设计制作*敏*感*词*(1)_江苏人事考试网)
优采云 发布时间: 2021-11-25 07:06文章伪原创查询(江苏网站设计制作*敏*感*词*(1)_江苏人事考试网)
江苏网站设计制作:网站文章百度原创度查询处理步骤江苏网站设计制作
过程:
1)先用逗号把文章分成一个词组
2) 然后统计每个词组的字数
3)前两个> 这10个词的词组,我们把百度搜索取出来,统计一下这个词组在百度搜索结果中完全出现的次数。
如果一篇文章文章被另一个网站转载,那么你可以通过随机抽取文章中的词组在百度中搜索完全重复的内容:
如果我们连续搜索两个词组,在百度搜索中,完全重复的结果很小,其他网站大量复制内容的概率相对较小,原创表现相对高的
在以上3步中,编写一个脚本来执行:
左列是文章 ID,右列是这两个词组在百度搜索结果中出现的次数。数量越多,重复程度越高,具体数值由自己定义。比如slag通常>=30%,定位比较高,即20个搜索结果中搜索2个词组,完整词组结果>=6
#编码:utf-8
导入请求、re、time、sys、json、datetime
导入多重处理
导入MySQL数据库
重新加载(系统)
('UTF-8')
Current_date=('%Y-%m-%d', (()))
定义搜索(请求,html):
文本=(请求,html)
如果文本:
数据 = (1)
除此以外:
数据='否'
返回数据
Defdate(时间戳):
时间数组=(时间戳)
otherStyleTime=('%Y-%m-%d%H:%M:%S', timeArray)
返回otherStyleTime
defgetHTml(url):
Host=search('^([^ /] *?)/', (r'(https | http): //','', url))
标题={
'接受':'text/html, application/xhtml + xml, application/xml; q=, */*; q=,
'接受编码':'gzip, deflate, sdch',
'接受-语言':'zh-CN, zh; q=, en; q=0.6',
'缓存控制':'无缓存',
'连接':'保持活力',
#'曲奇饼':'',
'主机':主机,
'Pragma':'无缓存',
'升级不安全请求':'1',
'用户代理':'Mozilla /(Macintosh; IntelMacOSX10_11_4)AppleWebKit /(KHTML, likeGecko)Chrome/Safari /',
}
#代理服务器
代理主机=''
代理端口 ='9010'
#代理隧道验证信息
代理用户 ='XXXX'
代理通行证 ='XXXX'
proxyMeta='(user)s:%(pass)s @%(host)s:%(port)s'%{
'主机':proxyHost,
'端口':代理端口,
“用户”:代理用户,
'通过':proxyPass,
}
代理={