自动采集文章内容(自动采集文章内容到github，后期每天采集500篇上传到公众号)

优采云发布时间: 2021-09-15 21:01

　　自动采集文章内容到github，后期每天采集500篇上传到公众号，文章的标题、作者、类型都可以自定义设置，可以独立开发一个简单的自动工具，并测试功能，

　　几年前，有一段时间我帮别人写python脚本写blog时，觉得上面写的sina-channel-1已经很强大了。但是遇到更新的网站时，我写的脚本就不支持。而现在的新站很难找到gallery了，既然不能满足要求，那么在原有的blog基础上，就自己开发一个。现在我是一名程序员了，我第一个方案是通过前端的jquery来实现后端采集sina平台的内容。

　　后来python的sina-channel-1已经很成熟了，我看其他大神（taofeng）都用python写的，就果断来用了。python将采集到的网站分发给excel笔记，之后通过excel笔记统计每篇内容，然后推送到githubpages上面。这个很简单，就像下面这张图，一直在同步，但是你可以上传图片，全部都会同步下来。

　　excel笔记演示:#以下是使用效果图:下面是用图片格式展示代码:#原理说明:sina是一个非盈利组织，里面各种杂七杂八的。每年申请sina账号的有十几万用户，这十几万用户的信息都在很多个网站的。网上有很多写采集文章，通过javascript获取到这些网站，利用javascript语言的fileurlrewriteapi（类似python的filewrite，java语言的fileread）来抓取他们的内容。

　　好的网站很多，不仅有sina还有国内各种门户网站，国外门户网站，万字的网站，这些网站中有很多页面类似，所以是可以一直抓取的。#defget_words(file_path):"""获取网页url，返回值为网页json内容.fileurlrewritebinding="./gallery.json"""words=file_path.json()iflen(file_path)>0:words=''json_path=json_path+'../sharing.json'returnjson_path.encode(int(json_path)).ensure_ascii('iso-8859-1')ifnotjson_path.encode(int(json_path)):returnsys.exit("password:"+sys.argv[1]+",pythondebuggerpythondebuggerpythondebugger")#sys.exit("password。

0

2021-09-15

自动采集文章内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集文章内容(自动采集文章内容到github，后期每天采集500篇上传到公众号)

0 个评论

发起人

AI时代内容工厂

自动采集文章内容(自动采集文章内容到github，后期每天采集500篇上传到公众号)

0 个评论

发起人

相关问题