细数SEO工作中给力的Python小脚本

优采云发布时间: 2022-05-15 02:58

　　人生苦短，我用Python。Python就像王者荣耀中的铭文或装备，强有力的武器可以更好地帮助您更好地刷野怪，更快地发育，从而通过等级差找突破口。

　　应用场景一：过滤敏感，不相关等杂七杂八关键词

# -*- coding: utf-8 -*- op_txt=open('done.txt','a') class NaiveFilter(): def __init__(self): self.keywords = set([]) def parse(self, path): for keyword in open(path): self.keywords.add(keyword.strip().encode('utf-8').lower()) # print (self.keywords) def filter(self, message, replss=r"*"): message = unicode(message).lower() for k in self.keywords: if k in message: message=message.replace(k, replss) else: op_txt.write('%s\n'%message) print (message) # return message if __name__ == '__main__': f = NaiveFilter() f.parse("keywords") #keywords里面放要敏感词或不想要的词等 a=[i.strip() for i in open('hotword.txt').readlines()] #hotword.txt是将要过滤的词库 c=len(a) for i in range(c): f.filter(a[i])

　　应用场景二：结巴jieba分词计算高频词及TFIDF

#coding=utf-8 import sys reload(sys) sys.setdefaultencoding("utf-8") import jieba import jieba.analyse #导入结巴jieba相关模块 output=open('words.csv','a') output.write('词语,词频,词权\n') stopkeyword=[line.strip() for line in open('stop.txt').readlines()] #将停止词文件保存到列表 text = open(r"new.txt","r").read() #导入需要计算的内容 zidian={} fenci=jieba.cut_for_search(text) for fc in fenci: if fc in zidian: zidian[fc]+=1 else: # zidian.setdefault(fc,1) #字典中如果不存在键，就加入键，键值设置为1 zidian[fc]=1 #计算tfidf tfidf=jieba.analyse.extract_tags(text,topK=30,withWeight=True) #写入到csv for word_weight in tfidf: if word_weight in stopkeyword: pass else: #不存在的话就输出 print word_weight[0],zidian.get(word_weight[0],'not found'),str(int(word_weight[1]*100))+'%' output.write('%s,%s,%s\n'%(word_weight[0],zidian.get(word_weight[0],'not found'),str(int(word_weight[1]*100))+'%'))

　　应用场景三：定向定时更新采集

#coding:utf-8 import urllib2,re,lxml,requests,time from bs4 import BeautifulSoup str_time=time.strftime('%Y-%m-%d',time.localtime()) op_txt=open('url.txt','a') url = 'http://www.xxx.com/sitemap/group.htm' html=requests.get(url).content soup = BeautifulSoup(html,"lxml") zidian={} c=0 with open('url.txt') as f: for i in f.readlines(): i=i.strip() zidian['%s'%(i)]=c c+=1 for urllist in re.findall(re.compile(r'.*?href="(.*?)" target="_blank">(.*?)</a>'),str(soup)): url_data=urllist[0].strip() title=urllist[1] if '2019' in title: print title,url_data if zidian.has_key(url_data): print (u'没有更新'+str_time) continue else: print (u'成功更新'+str_time) op_txt.writelines('%s\n'%url_data)

　　应用场景四：百万级别一键生成sitemap文件

　　应用场景五：合并目录下的所有日志文件

#coding=utf-8 import os import sys import glob def dirTxtToLargeTxt(dir,outputFileName): '''从dir目录下读入所有的TXT文件,将它们写到outputFileName里去''' #如果dir不是目录返回错误 if not os.path.isdir(dir): print ("传入的参数有错%s不是一个目录" %dir) return False #list all txt files in dir outputFile = open(outputFileName,"a") for txtFile in glob.glob(os.path.join(dir,"*.txt")): print (txtFile) inputFile = open(txtFile,"rb") for line in inputFile: outputFile.write(line) return True if __name__ =="__main__": if len(sys.argv)

0

2022-05-15

采集内容插入词库

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

细数SEO工作中给力的Python小脚本

0 个评论

发起人