自动采集文章内容(自动采集文章内容到github,后期每天采集500篇上传到公众号)
优采云 发布时间: 2021-09-15 21:01自动采集文章内容(自动采集文章内容到github,后期每天采集500篇上传到公众号)
自动采集文章内容到github,后期每天采集500篇上传到公众号,文章的标题、作者、类型都可以自定义设置,可以独立开发一个简单的自动工具,并测试功能,
几年前,有一段时间我帮别人写python脚本写blog时,觉得上面写的sina-channel-1已经很强大了。但是遇到更新的网站时,我写的脚本就不支持。而现在的新站很难找到gallery了,既然不能满足要求,那么在原有的blog基础上,就自己开发一个。现在我是一名程序员了,我第一个方案是通过前端的jquery来实现后端采集sina平台的内容。
后来python的sina-channel-1已经很成熟了,我看其他大神(taofeng)都用python写的,就果断来用了。python将采集到的网站分发给excel笔记,之后通过excel笔记统计每篇内容,然后推送到githubpages上面。这个很简单,就像下面这张图,一直在同步,但是你可以上传图片,全部都会同步下来。
excel笔记演示:#以下是使用效果图:下面是用图片格式展示代码:#原理说明:sina是一个非盈利组织,里面各种杂七杂八的。每年申请sina账号的有十几万用户,这十几万用户的信息都在很多个网站的。网上有很多写采集文章,通过javascript获取到这些网站,利用javascript语言的fileurlrewriteapi(类似python的filewrite,java语言的fileread)来抓取他们的内容。
好的网站很多,不仅有sina还有国内各种门户网站,国外门户网站,万字的网站,这些网站中有很多页面类似,所以是可以一直抓取的。#defget_words(file_path):"""获取网页url,返回值为网页json内容.fileurlrewritebinding="./gallery.json"""words=file_path.json()iflen(file_path)>0:words=''json_path=json_path+'../sharing.json'returnjson_path.encode(int(json_path)).ensure_ascii('iso-8859-1')ifnotjson_path.encode(int(json_path)):returnsys.exit("password:"+sys.argv[1]+",pythondebuggerpythondebuggerpythondebugger")#sys.exit("password。