干货教程:免费文章采集器-python爬虫-51cto社区(组图)

优采云发布时间: 2022-11-15 06:14

　　免费文章采集器-python爬虫-51cto社区我用了一个app，感觉很不错，代码：douyinmo/announcer，

　　网站可以看看，

　　可以使用python爬虫开发这个爬虫关键核心cookies的存储结构需要规划

　　我来回答吧。利用我们学校几个教务系统全部有登陆密码这个弊端，爬取我们学校几乎所有教务系统的登陆密码。由于学校与外挂的关系，所以外挂的主要代码不是我写的，是外挂公司的写的。我只是提供一下思路，可能本文会出现大量英文。首先你需要登陆学校所有的邮箱账号，如下图：然后利用模拟登陆的方法来解决所有注册账号的问题，比如在短信里发一个“该学校的姓名电话号码”的验证码，通过这个验证码登陆。

　　当然，你可以设置一个密码码字符长度，以防被撞破；或者防破解之类的。最后，进行python爬虫的解析，这个大致上我只简单写了一下吧，具体写法可以参考前一位仁兄的贴子，python爬虫解析教程中的urllib库部分。python爬虫解析教程中的urllib库部分然后便可以利用爬虫代码，采集学校的所有教务网站的账号密码，同时可以在学校内网上浏览新开发的教务网站。

　　比如我们学校现在新开发的教务网站：，那么我们不仅需要获取学校教务系统的账号和密码，同时需要知道学校所有的教务网站的账号密码，一般来说，学校教务系统与外挂是分离的，所以这里我写的方法不是我用java爬的外挂。方法大致上就是下面这样的：urllib库爬虫部分然后我们可以把python解析的部分编写好，比如urllib库，get()函数等，具体怎么编写可以参考我别的爬虫的答案，写法大致上就是下面这样的：urllib库爬虫部分这里顺便把get函数带上，get()函数代码如下：urllib库爬虫部分同时我们还需要根据我们的内网ip找到发送set-cookie的服务器地址，一般来说，我们学校内网都是用127.0.0.1，你可以参考我们学校内网的地址，然后根据你的学校教务系统的数据得到相应的地址，然后编写一个代理池，代理池实现可以参考我之前的答案，这里我用我自己写的getset方法来实现代理池的用法：如何利用httprequest请求技术，构建爬虫？当然，内网ip我们可以去外网获取，我们一般学校都是去外网直接发一个外网地址过去，或者通过ospider这个工具去获取，这里顺便说一下ospider这个工具：，我们用的浏览器都是火狐的，我们需要去获取它的根证书，然后用它根证书在内网发一条验证码，然后发给外网爬虫抓取关于是否可以利用urllib库，要去访问我们学校的教务系统，我们。

0

2022-11-15

免费文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

干货教程:免费文章采集器-python爬虫-51cto社区(组图)

0 个评论

发起人

AI时代内容工厂

干货教程:免费文章采集器-python爬虫-51cto社区(组图)

0 个评论

发起人

相关问题