这款NLP利器火了!关键词提取、结果可视化,从小白进阶高手

优采云 发布时间: 2020-08-25 23:51

  这款NLP利器火了!关键词提取、结果可视化,从小白进阶高手

  萧箫 发自 凹非寺

  量子位 报道 | 公众号 QbitAI

  如何快速高贵地处理你的NLP数据集?

  试试这款堪称「从小白到高手」的Texthero的工具包。

  不仅编撰快速简单,而且功能全面,预处理、表征、可视化样样精通,在Reddit上17个小时内就获得了逾1.1k的热度。

  

  连刚脱机的NLP程序猿看了都想与数据集再战几回:

  

  下面是Texthero的使用疗效。

  

  △ 优雅美观的NLP数据处理界面

  事实上,Texthero的高贵绝不仅仅在于编撰的快速,最关键的是,它省略了大量重复性代码编撰工作。

  只须要几行代码,Texthero能够帮你完成想要的数据预处理、表征、可视化等操作,极大程度上解放了你的手掌。

  来瞧瞧Texthero进行数据预处理、各种算法后的可视化疗效。

  效果展示

  首先,进行文本清除,然后采用TF-IDF算法进行特点表示,并对此可视化:

  

  PCA聚类后的疗效duangduang的:

  

  △ 进行文本清除和TF-IDF表征后的可视化疗效

  这不是你想要的?

  那么,除了预处理和表征外,试试加上K均值聚类算法,并进行可视化:

  

  效果如下:

  

  △ 进行预处理、表征和K均值聚类算法后的数据疗效

  经过K均值聚类算法处理后的结果一目了然。

  不仅上手简单,加载代码后,结果会生成在在同一个界面上,整体逻辑流程变得十分明了。

  

  △ 使用疗效

  从展示疗效来看,Texthero只须要编撰少量代码,就能得到你想要的结果,为数据处理市去了不少时间。

  事实上,只要把握基本使用逻辑,萌新也能快速上手这款NLP数据处理利器。

  使用手册

  pip一下texthero后(或从GitHub上直接下载工具包,文末附代码链接),采用import导出它和pandas:

  

  之后,加载你须要处理的文本信息数据集(这里采用了BBC sport数据库举例):

  

  然后就可以开始使用了:

  预处理

  如果须要进行快速的数据预处理操作,直接使用「文本清除」就行:

  

  当然,如果你须要对文本信息进行更细节的处理操作,例如将所有标点符号替换成空格、或者删掉中的所有内容,Texthero也提供了十分完备的工具包,以供使用。

  

  △ 光是预处理栏目就有这么多工具

  再也不用编撰一大堆代码,专门清除文本中的冗余数据了。

  表征

  同样,如果须要进行TF-IDF算法特点表示的话,同样只须要几行代码能够实现:

  

  一键出结果:

  

  如果须要更多的算法,这里也有meanshift、NMF等算法可以选用,每种算法基本都集成在一行代码中,你想要的这儿都有。

  

  可视化

  而在可视化方向上,Texthero同样突显出了强悍的能力,这里以PCA聚类后的结果进行展示:

  

  可视化疗效十分清晰:

  

  同样,可视化也可以自定义颜色、结果展示维度等,只须要一点Python的知识能够快速使用。

  

  这么便捷的NLP数据处理工具包,赶紧用上去~

  传送门

  代码链接:

  项目链接:

  — 完 —

  量子位 QbitAI · 头条号签约

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线