想做文本挖掘,还是用bert索“提取关键词”
优采云 发布时间: 2021-07-05 03:01想做文本挖掘,还是用bert索“提取关键词”
根据关键词文章采集系统可以实现,但如果你真的想做文本挖掘,还是用bert或elmo等模型实现吧,
其实采集方法就那么些,首先要知道你想采集什么,你可以去采集一下你感兴趣的产品名,你的产品名也可以通过百度百科或者知乎上看看关于该产品的用户体验,大家的观点,经过这些准备后可以找文本相关工具去采集;如果要准备是文本文件,一般来说机器学习的方法得考虑下,因为一般采集文本需要预处理过,如删除连续性字符,有的还需要去掉特殊符号,还有自动分词(很多情况没有必要全部都分词),其他语义分析的方法不同就不做介绍,其他语言采集方法也不同,基本都可以采集。
一般都是将文本按照字典排序加上标签,去爬虫网站输入关键词,
比较难,即使爬出来数据,其实你也不知道,
在python中搜索“提取关键词”。
applescript采集器
百度、谷歌、苹果三大搜索引擎都可以
百度
搜狗算不算
百度百科
外链
为什么不采用业务用户提交的原始爬虫呢,
先看你要什么规格的数据吧
国内有一个网站叫文档相似性服务的,专门做知识图谱推荐。支持问答类网站:从知乎搜索下载知乎问答、从果壳搜索下载果壳问答、从百度搜索下载百度问答、从豆瓣搜索下载豆瓣问答、从百度搜索下载百度搜索等等。