网页抓取 innertext 试题(导出一份题库题库列表来看看！的一个在线解析)

优采云发布时间: 2021-10-25 00:38

　　最近有朋友在做OJ题库，所以做了个小爬虫，导出了题库列表来看看！

　　目标：浙江大学题库

　　工具：python3.6、请求库、lxml库、pycharm

　　思路：先在网页上找到题库的位置

　　然后我们点击第一页和后面几页，看看url的变化

　　你找到模式了吗？也就是Number后面的页数变了，其他的没变。这使得构建循环变得容易。我们先看一下title的title和Id以及url在源码中的位置。

　　是不是很明显a标签的属性里面有具体的url，包括id也出现在url中，title出现在font标签中，所以很简单，我们直接用xpath来抓取td标签，然后匹配输出url和title，把url剪出来写出id（我这里偷懒了，别去上面td单独抢id了），然后写在字典里方便查看. 代码如下：

　　20多行代码全部搞定，运行结果如下：

　　所有当地人都在不到10秒的时间内被*敏*感*词*。当然这里注意不要重复运行，很有可能IP会被封！

　　将txt文件中的内容复制到在线解析json的网页中，查看结果

　　完美介绍~！当然，如果你有兴趣，可以到话题的url去抓取话题，这个可以作为下一步改进的地方！

　　一个很简单的小爬虫，python做这个工作还是很有效的，欢迎大家跟我学python！

0

2021-10-25

网页抓取 innertext 试题

0 个评论

要回复文章请先登录或注册