网站文章自动采集发布(如何利用Python和WordPress建一个属于自己的文章抓取站点 )
优采云 发布时间: 2021-11-08 20:04网站文章自动采集发布(如何利用Python和WordPress建一个属于自己的文章抓取站点
)
很多用WordPress建网站的朋友都有这样的烦恼,网站建好了,没时间自己写文章,慢慢放弃了,有的朋友采集了一个浏览器里很多赞博客的网站地址,因为采集的网址太多太复杂,从此我就很少点了。其实只需要几行代码,我们就可以使用Python和WordPress搭建自己的文章爬虫站点。主要使用python报纸xmlrpc模块来编写和实现网络爬虫。通过正则匹配抓取网页内容后,自动发布到WordPress用xmlrpc部署的网站。然后用crond定时抓包。
第 1 部分:抓取目标页面的 文章
#得到html的源码
def gethtml(url1):
#伪装浏览器头部
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
url = url1,
headers = headers
)
html = urllib2.urlopen(req).read()
return html
#得到目标url源码
code1 = gethtml('https://www.baidu.com')#示例
#提取内容
content1 = re.findall('(.*)',code1)#示例
#追加记录采集来的内容
f1 = open('contents1.txt','a+')
#读取txt中的内容
exist1 = f1.read()
第 2 部分:通过 xmlrpc 将 文章 发送到 WordPress
最后通过crontab定时运行程序,采集指定文章发送的WordPress
0 12 * * 2 /usr/bin/python /home/workspace/python-cn/python-cn.py