如何获取高质量的流量问答数据?-百度经验如何抓取
优采云 发布时间: 2021-06-26 22:01如何获取高质量的流量问答数据?-百度经验如何抓取
温州文章智能采集上传,支持手机电脑百度网盘微信公众号百度文库国家级公共课等千万媒体合作,能够快速方便解决取证、识别、转载、违规添加词条等问题,
如何获取高质量的流量问答数据?-百度经验如何抓取豆瓣、百度百科、人人网上的高质量数据?-数据
不是很清楚知乎的问答的质量标准,但是要抓取知乎问答的话,不管从关注人数还是回答数目,已经让我非常头疼。当然有人做了商业互助站,不过回答可能不能解决我所需要的数据量。看了很多人使用各种软件抓取知乎,但效果并不如人意。一方面是因为大家对于问答数据的理解可能还存在一定差异,抓取失败率可能比较高;还有一方面就是很多网站为了增加自己的用户粘性,可能不是很愿意投入太多精力来提供自己网站的问答数据,导致在采集数据时需要花费大量时间,数据抓取到的质量也会受到影响。
为了解决这个问题,我采用了关注问答数最多的百度文库来抓取了问答数据,此处需要注意的一点是,我所抓取的数据是关注最多的第一百个问答的数据,所以当数据量大的时候,问答数据的抓取数量也是一个比较大的影响因素。不过这么多问答的数据存在一个问题就是,有一些问答比较值得一答,有些问答是随机的,抓取起来就相对容易了。
所以,在我找数据的时候,大致定位了一下几个:知乎,豆瓣,百度百科,果壳。这样定位的好处在于,百度百科的文章是没有给出任何链接,同时一个问答下面可能存在多条相关回答,而问答数据量比较大的话,需要抓取的数据还挺多的。果壳是因为果壳文章偏少,不过近期果壳上都有哪些类型的文章是非常值得一看的?-《被停刊的大众点评》知乎也是一个非常值得一看的问答平台,如果把大v写的回答都抓取下来,完整的都可以直接拎过去。
百度百科的文章主要是以词条为单位,大家可以翻翻自己所需要的词条,看下词条中与知乎问答的相关性就知道能否找到知乎的问答了。为了尽可能少的采集到问答数据,只有大家有需要的时候再抓取。大致就是这么个流程,我觉得还是比较有用的,希望对你有帮助~。