网页抓取 innertext 试题(导出一份题库题库列表来看看！的一个在线解析)

优采云发布时间: 2022-01-13 10:11

　　最近有朋友在做OJ题库，可以做个小爬虫，导出题库列表看看！

　　对象：浙江大学题库

　　工具：python3.6、requests库、lxml库、pycharm

　　思路：首先在网页中找到题库的位置

　　然后我们点击第一页和后面的页面可以看到url的变化

　　你找到模式了吗？也就是Number后面的页数变了，其他的都没有变，所以建个循环很方便。我们来看看源代码中title的title和Id以及url的位置。

　　是不是很明显a标签的属性里有具体的url，包括id也出现在url中，title出现在font标签中，所以很简单，我们直接用xpath抓取td标签，然后match 获取url和title，剪掉url写id（这里我就不去上面的td单独抓id了），然后写到字典里，这样就方便了查看，代码如下：

　　20多行代码全部搞定，结果如下：

　　不到 10 秒就在本地捕获了所有这些。当然，注意不要在这里重复操作，很有可能IP会被封！

　　将txt文档中的内容复制到在线解析json的网页中，查看结果

　　完美呈现~！当然，如果你有兴趣，你可以去主题的url，抓取主题。这可以作为下一步改进的地方！

　　一个很简单的小爬虫，python做这个工作还是很厉害的，欢迎大家跟我一起学python！

0

2022-01-13

网页抓取 innertext 试题

0 个评论

要回复文章请先登录或注册