好吧，难就难在数据库要起来吗？

优采云发布时间: 2021-07-26 23:04

　　好吧，难就难在数据库要起来吗？

　　可采集文章中的内容(如问题，答案，好文章，长尾关键词等)，并提取并处理好后缀做成文字数据库，最后输出pdf格式，目前我在用的有必应科技，百度文库等，其他平台请知乎搜索。

　　问题和答案都是可以抓取的，用python的numpy库就可以实现。为什么你觉得不可能，可能是用的库不是必须的，而是你用错工具了。

　　应该不是不可能，但是比较难。我认为，这个前提在于：“内容足够丰富”我不认为文字数据库有必要存在，因为文字数据库在保存信息的时候就可以考虑内容相关度问题，而不需要文字数据库。

　　你可以使用分析库，主要是python，你用mysql估计难以跑满，也可以用hive（这个可以用。不过个人认为，

　　问题是不可行。例如你想抓取知乎上有关于高考的所有问题？是否已经存在？目前的python在这方面不是特别的完善。例如你有1亿问题。各种标签，而且全是可能涉及到高考。好吧，难就难在数据库要起来。但是如果说不是专业研究人员，1亿问题中没有几千万，也是十几亿吧。

　　可行。实际操作下来，几乎没有可行性。抓取文字数据大部分行为应该是非重复下单。非重复下单发生几率不会超过10%，你这10%对于抓取数据也是几乎没有用。多年的被挖掘数据不少不少，数据量也极大，但是真正能做的人实在太少。想做请在市场中拉人头。好吧，

0

2021-07-26

可采集文章

0 个评论

要回复文章请先登录或注册