如何用爬虫知乎所有问题,加精华答案和所有用户?

优采云 发布时间: 2021-04-10 23:03

  如何用爬虫知乎所有问题,加精华答案和所有用户?

  关键词文章采集工具库、文章分析工具箱,二者对比起来的话,知乎专栏的资源数量更多,而且对于分析工具箱而言,内容更简洁。知乎专栏的采集详细情况请参考:如何用爬虫抓取知乎所有问题,加精华答案和所有用户?实际使用过程中,二者功能区一定要做严格的划分,否则当某一部分数据量太大时,很容易成为某一个板块的“临时集合”,而影响整体分析。

  最好的方法就是先理解每个答案被采集的原因,然后把这些答案集合起来,形成一个知乎问答库。像你的文章,如果不自己采集,很难分析里面的问题和答案,也容易把答案打散。所以,现在如果自己没有一个具体的工具,就要靠自己的积累了。如果没有多少知识积累,刚开始最好不要用中文对照着找,学好英文。

  根据目标的关键词,至少找出关键字,再根据条件完成爬虫,这是一个有效的方法。像我就写过通过信息采集器来寻找关键字,再根据图书资源进行爬取,完成的。

  对于被采集的平台要进行一个对比。从爬虫思路来讲,问答平台相对于文章来说,更为注重问题的质量,问题下的内容更准确的表达了用户的真实意愿。所以,首先需要在问答平台进行人工抓取,将爬虫的结果以正则表达式的形式进行批量处理。然后在分析原始文章中的关键字即可进行爬取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线