网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)
优采云 发布时间: 2021-10-25 00:38网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)
最近有朋友在做OJ题库,所以做了个小爬虫,导出了题库列表来看看!
目标:浙江大学题库
工具:python3.6、请求库、lxml库、pycharm
思路:先在网页上找到题库的位置
然后我们点击第一页和后面几页,看看url的变化
你找到模式了吗?也就是Number后面的页数变了,其他的没变。这使得构建循环变得容易。我们先看一下title的title和Id以及url在源码中的位置。
是不是很明显a标签的属性里面有具体的url,包括id也出现在url中,title出现在font标签中,所以很简单,我们直接用xpath来抓取td标签,然后匹配 输出url和title,把url剪出来写出id(我这里偷懒了,别去上面td单独抢id了),然后写在字典里方便查看. 代码如下:
20多行代码全部搞定,运行结果如下:
所有当地人都在不到10秒的时间内被*敏*感*词*。当然这里注意不要重复运行,很有可能IP会被封!
将txt文件中的内容复制到在线解析json的网页中,查看结果
完美介绍~!当然,如果你有兴趣,可以到话题的url去抓取话题,这个可以作为下一步改进的地方!
一个很简单的小爬虫,python做这个工作还是很有效的,欢迎大家跟我学python!