前程无忧网站内容(讲下爬前程怎么去实现苦于获取子标签的所有文本内容 )

优采云发布时间: 2022-04-02 04:19

　　前程无忧网站内容(讲下爬前程怎么去实现苦于获取子标签的所有文本内容

)

　　先说一下攀登未来的思路：

　　1.首先想到的是通过下面页面的响应来获取Xpath路径的值

　　2.当我去获取class='e'对应的值时，发现不是我想要的。当我转到 class='t' 下面的跨度时，我无法获取值并返回一个空列表。

　　3. 这时候在网页上右键查看源码，发现class='e'得到的值在这里，继续往下看发现我们想要的值在javascript

　　4.我尝试点击第二页获取请求的地址。我想尝试获得一个纯 json URL。发现第二页的主界面还在，没有收录纯json的url。文本

　　4. 那么只能想办法从之前的网页源码中获取内容了。这也是今后的反爬虫措施。想了很久，我知道如何实现了。保存html文件的方法，使用正则匹配我们想要的内容，我们想要的内容其实是一个json字符串给定一个变量window.SEARCH_RESULT。使用 json 方法将字符串转换为字典。后续操作就简单多了

　　5. 在页面上我们可以得到详细信息的url值

　　6. 然后通过scrapy.Request中的回调，使用新定义的方法请求这个url地址解析响应的文本内容

　　7. 然后通过父标签获取子标签的所有内容（我找了很久的方法，很实用）可以参考父标签获取子标签的所有文字内容-标签

　　父级获取子标签的所有文本内容

0

2022-04-02

前程无忧网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

前程无忧网站内容(讲下爬前程怎么去实现苦于获取子标签的所有文本内容 )

0 个评论

发起人

AI时代内容工厂

前程无忧网站内容(讲下爬前程怎么去实现苦于获取子标签的所有文本内容 )

0 个评论

发起人

相关问题