全网文章采集·应用场景:孤独症患者生活需要什么

优采云 发布时间: 2021-05-17 18:01

  全网文章采集·应用场景:孤独症患者生活需要什么

  全网文章采集·应用场景:1.想找个事件图谱的文章2.想知道找什么文章3.想查找各行业各场景下的文章4.想知道找出的文章哪些是重复的5.想知道找出的文章哪些是高质量的所谓文章标题可能跟文章没什么关系,因为对于一般的文章,标题意思肯定就是自己文章的一些特征,比如说行业、或者其他的一些特征文章中可能涉及到的一些属性有时候,如果一篇文章我们想要查找一些文章的标题,我们并不需要全部的文章都找,比如,我们只需要知道一些自己想要找的主题的关键词,找*敏*感*词*众的关键词就好了。

  比如说根据一些文章的标题,我们能大概推断出这篇文章所对应的文章主题:比如说我们想要找“一个人的职业选择”这个主题的关键词,那么我们只需要找所有和“职业选择”相关的文章就好了。比如我们看到“失业”的文章,想找“一个人的职业选择”这个主题的文章,那么我们可以搜索:“一个人的职业选择”,找出来大概就有一百多篇,当然对于文章的数量来说,可能不能准确反映出场景所对应的文章。

  一个场景下的文章怎么判断他是什么样的文章呢?比如说用nlp的方法,我们可以根据一些关键词的召回率、topicsize、itemquerylevel等进行判断。举个例子:以我们想找“关于孤独症患者生活需要什么”这篇文章的标题为例,假设这篇文章的topicsize是10000个词汇,我们想知道“孤独症”这个主题下,有多少篇文章是“关于孤独症生活需要什么”,显然这个问题很难。

  因为我们所找的主题关键词可能就是孤独症这个词汇下所有的文章主题了。有时候,我们需要在一个场景下面,只需要找出一篇其他的文章的标题,这个场景下面,我们可以做一个简单的统计,比如说从文章中看到找到某个关键词出现的频率比较高,而且数量很多,那么我们就可以知道这个关键词出现在其他的文章中的频率也会很高。比如我们看到“一个人的职业选择”这个主题下面,有些文章标题是:“在职业选择上该怎么做”、“什么职业适合你”、“怎么跳槽”等,我们可以知道“职业选择”这个主题有很多人在做,而且这些人的背景和文章是非常相似的。

  文章的主题属性我们可以把文章分成两类:一类是大家经常有的,主题里面有用词相近关键词或者说有一些形容词或者是时间上的相近关键词,还有一类是没有用词相近的关键词,或者说是时间上的相近关键词。举个例子:以找“一个人的职业选择”这篇文章为例:如果我们看到标题的“职业选择”跟“一个人的职业选择”这两个词汇的话,我们会认为是同一个场景下的,但是对于“职业选择”这个场景下,同样是“一个人的职业。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线