推荐文章:SEO文章原创度检测

优采云 发布时间: 2022-09-29 15:12

  推荐文章:SEO文章原创度检测

  过程:

  1)先放一篇文章文章,用逗号分隔成短语

  2)然后统计每个词组的字数

  

  3)前两个10个字符的词组,我们在百度搜索下取出,统计该词组在百度搜索结果中完全出现的次数。

  如果一个文章被其他网站大量转载,只需在文章中提取一个词组,你可以在百度上搜索准确的重复内容:

  如果我们连续搜索两个词组,在百度搜索中,完全重复的结果很少,也就是说内容被其他网站转载的概率比较小,原创的程度比较高的。

  

  编写脚本执行以上 3 步:

  左栏是文章的ID,右栏是这两个词组在百度搜索结果中出现的完整次数。次数越大,重复程度越高,具体数值可以自己定义。比如这个渣一般定位>=30%的重复度高的,也就是搜索2个词组。在 20 个搜索结果中,有 >=6 个结果完全出现了该短语

  #coding:utf-8<br /><br />import requests,re,time,sys,json,datetime<br />import multiprocessing<br />import MySQLdb as mdb<br /><br />reload(sys)<br />sys.setdefaultencoding('utf-8')<br /><br />current_date = time.strftime('%Y-%m-%d',time.localtime(time.time()))<br /><br />def search(req,html):<br />    text = re.search(req,html)<br />    if text:<br />        data = text.group(1)<br />    else:<br />        data = 'no'<br />    return data<br /><br />def date(timeStamp):<br />    timeArray = time.localtime(timeStamp)<br />    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)<br />    return otherStyleTime<br /><br />def getHTml(url):<br /><br />    host = search('^([^/]*?)/',re.sub(r'(https|http)://','',url))<br /><br />    headers = {<br />        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",<br />        "Accept-Encoding":"gzip, deflate, sdch",<br />        "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",<br />        "Cache-Control":"no-cache",<br />        "Connection":"keep-alive",<br />        #"Cookie":"",<br />        "Host":host,<br />        "Pragma":"no-cache",<br />        "Upgrade-Insecure-Requests":"1",<br />        "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36",<br />    }<br /><br />  # 代理服务器<br />    proxyHost = "proxy.abuyun.com"<br />    proxyPort = "9010"<br /><br />    # 代理隧道验证信息<br />    proxyUser = "XXXX"<br />    proxyPass = "XXXX"<br /><br />    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {<br />      "host" : proxyHost,<br />      "port" : proxyPort,<br />      "user" : proxyUser,<br />      "pass" : proxyPass,<br />    }<br /><br />    proxies = {<br />        "http"  : proxyMeta,<br />        "https" : proxyMeta,<br />    }<br /><br />    html = requests.get(url,headers=headers,timeout=30)<br />    # html = requests.get(url,headers=headers,timeout=30,proxies=proxies)<br />    code = html.encoding<br />    return html.content<br /><br /><br />def getContent(word):<br /><br />    pcurl = 'http://www.baidu.com/s?q=&tn=json&ct=2097152&si=&ie=utf-8&cl=3&wd=%s&rn=10' % word<br />    # print '@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ start crawl %s @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@' % pcurl<br />    html = getHTml(pcurl)<br /><br />    a = 0<br />    html_dict = json.loads(html)<br />    for tag in html_dict['feed']['entry']:<br />        if tag.has_key('title'):<br />            title = tag['title']<br />            url = tag['url']<br />            rank = tag['pn']<br />            time = date(tag['time'])<br />            abs = tag['abs']<br /><br />            if word in abs:<br />                a += 1<br />    return a<br /><br /><br />con = mdb.connect('127.0.0.1','root','','wddis',charset='utf8',unix_socket='/tmp/mysql.sock')<br />cur = con.cursor()<br />with con:<br />    cur.execute("select aid,content from pre_portal_article_content limit 10")<br />    numrows = int(cur.rowcount)<br />    for i in range(numrows):<br />        row = cur.fetchone()<br /><br />        aid = row[0]<br />        content = row[1]<br />        content_format = re.sub(']*?>','',content)<br /><br />        a = 0<br />        for z in [ x for x in content_format.split(',') if len(x)>10 ][:2]:<br />            a += getContent(z)<br />        print "%s --> %s" % (aid,a)<br /><br /><br /># words = open(wordfile).readlines()<br /># pool = multiprocessing.Pool(processes=10)<br /># for word in words:<br />    # word = word.strip()<br />    # pool.apply_async(getContent, (word,client ))<br /># pool.close()<br /># pool.join()<br />

  最新发布:如何使网站在搜索引擎中排名首页?

  相信大部分人都对SEO推广很熟悉了,但是随着搜索引擎算法的更新,如今的网络SEO推广越来越难。在搜索引擎中排名并不容易。

  1、查询搜索量

  

  我们可以先选择一些核心行业关键词,使用一些关键词工具查询关键词的准确搜索量,或者通过百度搜索下的相关搜索整理关键词和搜索量进入 关键词 搜索大小,然后按难度排序。

  2、分析关键词比赛

  从关键词搜索范围中选择搜索量大的关键词,然后一一搜索百度,分析网站在首页的排名,查看这些网站的优化性能和相关数据。

  

  3、识别关键字

  这一步比较简单。毕竟我们之前也做过一些分析。这一步是将分析结果整理成文档。不过这一步一定要慎重,核心和子核心的分类要清楚。通常,核心关键词只有 20%。通常,核心关键词会在网站首页进行优化,其他关键词根据实际情况进行优化,包括渠道页面,或者核心产品和业务页面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线