985高校的大学生如何用urllib做动态生成html脚本

优采云发布时间: 2022-05-17 21:06

　　关键词文章采集的关键词是：800所高校、350万个信息源。第一步是要挖掘每个高校里面隐藏的几万个信息源，搜集这些数据需要数周的时间，而且每个学校数据不同，挖掘难度较大，然后用python爬虫数据采集接口处理等方法将搜集的数据输出来。

　　首先，是加入一个高校联盟，其次你需要将爬虫爬下来。

　　可以试试爬虫联盟

　　qs站点吧，发现800所高校，每年都会有分享。

　　还有一个我自己经常逛的a5杂志，发现985高校的大学生去的a5杂志社挺多的。你可以一个一个翻查找到你感兴趣的学校。

　　你不能指望一个web站点完美对应一个网站吧？我能想到的还是推荐你用urllib做动态生成html脚本或者你可以参考网页爬虫联盟

　　我说下自己的做法：

　　1、首先在google搜索你感兴趣的高校名字，不管是查校名，查专业名都可以，至少有3所以上符合你的胃口。

　　2、接下来把符合条件的教学楼挨个爬一遍，很快就会爬完。

　　3、有些教学楼可能分布较远，需要用到bing等搜索引擎。但是有些教学楼挨在一起，不适合爬。所以可以找些门类相似但是挨着的教学楼挨个爬。

　　4、把爬下来的东西，按照你要的格式编写成python脚本。

　　5、传到xxx.py文件夹里，训练机器自动抓取就好了。基本上问题都不大。

0

2022-05-17

关键词文章采集

0 个评论

要回复文章请先登录或注册