网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)

优采云 发布时间: 2022-01-13 10:11

  网页 抓取 innertext 试题(导出一份题库题库列表来看看!的一个在线解析)

  最近有朋友在做OJ题库,可以做个小爬虫,导出题库列表看看!

  对象:浙江大学题库

  工具:python3.6、requests库、lxml库、pycharm

  思路:首先在网页中找到题库的位置

  然后我们点击第一页和后面的页面可以看到url的变化

  你找到模式了吗?也就是Number后面的页数变了,其他的都没有变,所以建个循环很方便。我们来看看源代码中title的title和Id以及url的位置。

  是不是很明显a标签的属性里有具体的url,包括id也出现在url中,title出现在font标签中,所以很简单,我们直接用xpath抓取td标签,然后match 获取url和title,剪掉url写id(这里我就不去上面的td单独抓id了),然后写到字典里,这样就方便了查看,代码如下:

  20多行代码全部搞定,结果如下:

  不到 10 秒就在本地捕获了所有这些。当然,注意不要在这里重复操作,很有可能IP会被封!

  将txt文档中的内容复制到在线解析json的网页中,查看结果

  完美呈现~!当然,如果你有兴趣,你可以去主题的url,抓取主题。这可以作为下一步改进的地方!

  一个很简单的小爬虫,python做这个工作还是很厉害的,欢迎大家跟我一起学python!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线