网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)
优采云 发布时间: 2022-01-13 10:11网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)
最近有朋友在做OJ题库,可以做个小爬虫,导出题库列表看看!
对象:浙江大学题库
工具:python3.6、requests库、lxml库、pycharm
思路:首先在网页中找到题库的位置
然后我们点击第一页和后面的页面可以看到url的变化
你找到模式了吗?也就是Number后面的页数变了,其他的都没有变,所以建个循环很方便。我们来看看源代码中title的title和Id以及url的位置。
是不是很明显a标签的属性里有具体的url,包括id也出现在url中,title出现在font标签中,所以很简单,我们直接用xpath抓取td标签,然后match 获取url和title,剪掉url写id(这里我就不去上面的td单独抓id了),然后写到字典里,这样就方便了查看,代码如下:
20多行代码全部搞定,结果如下:
不到 10 秒就在本地捕获了所有这些。当然,注意不要在这里重复操作,很有可能IP会被封!
将txt文档中的内容复制到在线解析json的网页中,查看结果
完美呈现~!当然,如果你有兴趣,你可以去主题的url,抓取主题。这可以作为下一步改进的地方!
一个很简单的小爬虫,python做这个工作还是很厉害的,欢迎大家跟我一起学python!