网站文章自动采集发布(如何利用Python和WordPress建一个属于自己的文章抓取站点 )

优采云 发布时间: 2021-11-08 20:04

  网站文章自动采集发布(如何利用Python和WordPress建一个属于自己的文章抓取站点

)

  很多用WordPress建网站的朋友都有这样的烦恼,网站建好了,没时间自己写文章,慢慢放弃了,有的朋友采集了一个浏览器里很多赞博客的网站地址,因为采集的网址太多太复杂,从此我就很少点了。其实只需要几行代码,我们就可以使用Python和WordPress搭建自己的文章爬虫站点。主要使用python报纸xmlrpc模块来编写和实现网络爬虫。通过正则匹配抓取网页内容后,自动发布到WordPress用xmlrpc部署的网站。然后用crond定时抓包。

  第 1 部分:抓取目标页面的 文章

  #得到html的源码

def gethtml(url1):

#伪装浏览器头部

headers = {

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

}

req = urllib2.Request(

url = url1,

headers = headers

)

html = urllib2.urlopen(req).read()

return html

#得到目标url源码

code1 = gethtml('https://www.baidu.com')#示例

#提取内容

content1 = re.findall('(.*)',code1)#示例

#追加记录采集来的内容

f1 = open('contents1.txt','a+')

#读取txt中的内容

exist1 = f1.read()

  第 2 部分:通过 xmlrpc 将 文章 发送到 WordPress

  最后通过crontab定时运行程序,采集指定文章发送的WordPress

  0 12 * * 2 /usr/bin/python /home/workspace/python-cn/python-cn.py

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线