使用Python在WordPress网站上实现文章的*敏*感*词*自动发布
优采云 发布时间: 2020-08-08 21:12许多使用WordPress建立网站的朋友有这样的麻烦. 网站建成后,您将没有时间自己撰写文章,并且它逐渐被放弃. 一些朋友在他们的浏览器中采集了很多喜欢的博客网站地址,因为他们采集了太多的URL,因为它们太复杂了,从那时起,我很少单击打开它们. 实际上,仅需几行代码,我们就可以使用Python和WordPress构建我们自己的文章搜寻网站. 主要目的是使用python报纸xmlrpc模块编写网络爬虫. 通过常规匹配对Web内容进行爬网后,它将使用xmlrpc自动发布到WordPress部署网站. 然后使用crond定期捕获.
第1部分: 在目标页面上获取文章
#得到html的源码
def gethtml(url1):
#伪装浏览器头部
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
url = url1,
headers = headers
)
html = urllib2.urlopen(req).read()
return html
#得到目标url源码
code1 = gethtml('https://www.baidu.com')#示例
#提取内容
content1 = re.findall('(.*)',code1)#示例
#追加记录采集来的内容
f1 = open('contents1.txt','a+')
#读取txt中的内容
exist1 = f1.read()
第2部分: 通过xmlrpc将文章发送到WordPress
def sends():
for i in range(len(content1)):
u=content1[i][0]
url='https://www.baidu.com'+u
a=Article(url,language='zh')
a.download()
a.parse()
dst=a.text
title=a.title
#链接WordPress,输入xmlrpc链接,后台账号密码
wp = Client('http://www.python-cn.com/xmlrpc.php','username','password')
post = WordPressPost()
post.title = title
post.content = dst
post.post_status = 'publish'
#发送到WordPress
wp.call(NewPost(post))
time.sleep(3)
print 'posts updates'
最后,通过crontab定期运行程序以采集指定文章发送的WordPress