好吧,难就难在数据库要起来吗?
优采云 发布时间: 2021-07-26 23:04好吧,难就难在数据库要起来吗?
可采集文章中的内容(如问题,答案,好文章,长尾关键词等),并提取并处理好后缀做成文字数据库,最后输出pdf格式,目前我在用的有必应科技,百度文库等,其他平台请知乎搜索。
问题和答案都是可以抓取的,用python的numpy库就可以实现。为什么你觉得不可能,可能是用的库不是必须的,而是你用错工具了。
应该不是不可能,但是比较难。我认为,这个前提在于:“内容足够丰富”我不认为文字数据库有必要存在,因为文字数据库在保存信息的时候就可以考虑内容相关度问题,而不需要文字数据库。
你可以使用分析库,主要是python,你用mysql估计难以跑满,也可以用hive(这个可以用。不过个人认为,
问题是不可行。例如你想抓取知乎上有关于高考的所有问题?是否已经存在?目前的python在这方面不是特别的完善。例如你有1亿问题。各种标签,而且全是可能涉及到高考。好吧,难就难在数据库要起来。但是如果说不是专业研究人员,1亿问题中没有几千万,也是十几亿吧。
可行。实际操作下来,几乎没有可行性。抓取文字数据大部分行为应该是非重复下单。非重复下单发生几率不会超过10%,你这10%对于抓取数据也是几乎没有用。多年的被挖掘数据不少不少,数据量也极大,但是真正能做的人实在太少。想做请在市场中拉人头。好吧,