985高校的大学生如何用urllib做动态生成html脚本

优采云 发布时间: 2022-05-17 21:06

  985高校的大学生如何用urllib做动态生成html脚本

  关键词文章采集的关键词是:800所高校、350万个信息源。第一步是要挖掘每个高校里面隐藏的几万个信息源,搜集这些数据需要数周的时间,而且每个学校数据不同,挖掘难度较大,然后用python爬虫数据采集接口处理等方法将搜集的数据输出来。

  首先,是加入一个高校联盟,其次你需要将爬虫爬下来。

  可以试试爬虫联盟

  qs站点吧,发现800所高校,每年都会有分享。

  还有一个我自己经常逛的a5杂志,发现985高校的大学生去的a5杂志社挺多的。你可以一个一个翻查找到你感兴趣的学校。

  你不能指望一个web站点完美对应一个网站吧?我能想到的还是推荐你用urllib做动态生成html脚本或者你可以参考网页爬虫联盟

  我说下自己的做法:

  1、首先在google搜索你感兴趣的高校名字,不管是查校名,查专业名都可以,至少有3所以上符合你的胃口。

  2、接下来把符合条件的教学楼挨个爬一遍,很快就会爬完。

  3、有些教学楼可能分布较远,需要用到bing等搜索引擎。但是有些教学楼挨在一起,不适合爬。所以可以找些门类相似但是挨着的教学楼挨个爬。

  4、把爬下来的东西,按照你要的格式编写成python脚本。

  5、传到xxx.py文件夹里,训练机器自动抓取就好了。基本上问题都不大。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线