关键词 文章采集(关键词文章采集的方法有哪些?怎么做?)

优采云 发布时间: 2022-02-16 04:01

  关键词 文章采集(关键词文章采集的方法有哪些?怎么做?)

  关键词文章采集的方法第一:先使用文本匹配技术进行文章采集,优势在于匹配文本快速,而且文本匹配即时跟进;第二:也可以采用canonical的转换技术,基于内容相似度的,采集方式多样;也可以使用分词,然后向量化技术,收集文章后处理方便,但要求好词或长词多且短句多。第三:自动摘要检索,不需要人工撰写摘要,方便了检索人员快速定位到标题;第四:分词去停用词等特征提取,利用词语依存替换技术实现中文文本的智能摘要,如:直接对文本中相近的词进行替换。

  非标转化:通过excel可以处理的方法就非常多了,常用的转化方法有字典匹配、模糊匹配、词法替换等等(也可以提取api,但有点麻烦,可以自己先爬爬网站看看)多文本检索:ibmwikipedia[3],bigtable[4]用sql能做的事情太多了,针对不同的情况都会有不同的组合。把查询的逻辑实现出来,再考虑采用何种采集方式。

  本人也有这样的疑问,目前所想到的方法有两个:1、先抓取文章中的重要内容,处理成词典(数据库中有没有没法用xml格式传递的内容?除了关键词匹配,如果有其他比较好的爬虫工具,可以用xml来做文章搜索,但目前还没有成熟的数据库工具)2、将词典按照关键词划分成列表,词串与串匹配,并写入关键词库。(没查过搜索表可否方便传递。)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线