干货教程:网站文章自动采集自动登录(库、pyquery库)

优采云发布时间: 2022-09-28 14:13

　　网站文章自动采集自动登录前言采用ai+机器学习去爬取站内其他的网站文章是我想做的，主要是方便我在地铁上碎片时间就能获取这些网站的资源文章，用的是爬虫+深度学习的方法。爬虫spider，机器学习ml，google开源项目代码，所以在采用自动登录的方法时，首先采用的是pythonopencv库做到文章自动登录，解决方案就是使用googlecookie，从首页获取点击链接以及具体的文章id。

　　获取文章登录密码源码地址，方便大家复制。下面介绍配置以及采用的ai爬虫。urllib库、pyquery库、opencv库爬虫基本使用网站首页获取文章链接及文章id（可以使用地址栏搜索）：defgethtml(url):returnurllib.request.urlopen(url).read()#获取文章链接和文章idurllib.request.urlretrieve(url,content)#从文章头部获取具体文章链接、文章id，存入数据库returndefgetheader(self):urllib.request.urlopen(url).read()#获取具体文章链接及文章idurllib.request.urlretrieve(url,string)#从文章头部获取具体文章链接urllib.request.urlopen(url).read()#获取文章内容#文章介绍、作者、标题、cookie等returnurllib.request.urlopen(url).read()#文章标题urllib.request.urlopen(url).read()#文章作者、标题、收藏量urllib.request.urlopen(url).read()#文章收藏量、评论量urllib.request.urlopen(url).read()#文章首页文章链接urllib.request.urlopen(url).read()#ajax生成请求url，返回int值urllib.request.urlopen(url).read()#ajax生成请求url，返回xml值urllib.request.urlopen(url).read()#获取请求头，包括getheader方法列表urllib.request.urlopen("/").read()#获取请求方法，包括get方法init方法urllib.request.urlopen("//").read()#获取请求内容，包括内容列表defdescribe(pageid):xml=xmlreader(pageid)xml.describe(pageid,'size',string,xmlformat)returnxml.describe()defdescribeheader(self):xml=xmlreader(self)xml.describeheader('/','xxx','cssouthmd/lcjzcj/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%/%。

0

2022-09-28

网站文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

干货教程:网站文章自动采集自动登录(库、pyquery库)

0 个评论

发起人

AI时代内容工厂

干货教程:网站文章自动采集自动登录(库、pyquery库)

0 个评论

发起人

相关问题