如何在网页上爬取知乎上的所有回答?-拾光的回答
优采云 发布时间: 2022-08-22 16:12如何在网页上爬取知乎上的所有回答?-拾光的回答
抓取网页生成电子书。可以用php,也可以用mysql。程序流程大概是,爬取一个页面,得到url和返回结果。接着开始分析返回结果,接着生成数据库记录,再接着刷新记录库,这样就刷出来了。整个过程把一个网页分成多个子网页,一条返回记录由一个简单html源码描述。
用mysql存储数据并进行查询是这样的:
1、登录知乎,
2、读取爬虫,
3、读取第一页到当前页的所有的记录,
4、根据网页的html语言和自己需要的语言,
5、接着爬下一页,直到全部数据爬取完成,
请参考我写的爬虫如何在网页上爬取知乎上的所有回答?-拾光的回答
可以参考我写的知乎爬虫知乎爬虫在哪可以找到?-拾光的回答
1.理论上可以去找知乎官方解决方案,毕竟他们比较重视这个体验。但是,现在来说基本找不到靠谱的解决方案。2.要么你多找几个人帮你实现,大家一起爬。要么你不想爬你的问题中:知乎标记:知乎评论区规则:-1-targets/collaborative-data-structures/?reward=quark_reward建议使用上面这个扩展工具,你的问题中:你还可以输入一些你要的问题。
还可以根据需要自定义扩展字段。pizza可以参考callback定义器#可以自定义定义主播,否则,会采取相对应的处理。