网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)

优采云 发布时间: 2021-10-25 00:38

  网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)

  最近有朋友在做OJ题库,所以做了个小爬虫,导出了题库列表来看看!

  目标:浙江大学题库

  工具:python3.6、请求库、lxml库、pycharm

  思路:先在网页上找到题库的位置

  然后我们点击第一页和后面几页,看看url的变化

  你找到模式了吗?也就是Number后面的页数变了,其他的没变。这使得构建循环变得容易。我们先看一下title的title和Id以及url在源码中的位置。

  是不是很明显a标签的属性里面有具体的url,包括id也出现在url中,title出现在font标签中,所以很简单,我们直接用xpath来抓取td标签,然后匹配 输出url和title,把url剪出来写出id(我这里偷懒了,别去上面td单独抢id了),然后写在字典里方便查看. 代码如下:

  20多行代码全部搞定,运行结果如下:

  所有当地人都在不到10秒的时间内被*敏*感*词*。当然这里注意不要重复运行,很有可能IP会被封!

  将txt文件中的内容复制到在线解析json的网页中,查看结果

  完美介绍~!当然,如果你有兴趣,可以到话题的url去抓取话题,这个可以作为下一步改进的地方!

  一个很简单的小爬虫,python做这个工作还是很有效的,欢迎大家跟我学python!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线