关键词自动采集生成内容系统(关键词自动采集生成内容系统实验设计实践中的应用)
优采云 发布时间: 2021-11-16 09:12关键词自动采集生成内容系统(关键词自动采集生成内容系统实验设计实践中的应用)
关键词自动采集生成内容系统实验设计实践中我们尽量尽可能留在设计中的最少代码里面,尽量的减少实现上的约束。所以这部分就主要是说一下我们实现中碰到的要去做什么事情。1.自动采集2.自动生成相关文章内容以上内容为最基本的一些例子我们首先来采集数据,然后按照每个词来查找对应的文章,来看每篇文章下面是是不是会有对应相关的内容。
2.1自动采集的思路自动采集一般的思路就是把文章按照词来进行分类,然后每一篇文章下有多少个相关词。下面再来看看文章里面的内容。每篇文章下面有这样几个相关字段。broadintention:文章下面的目标内容必须是相关词。negativeintention:一般是和词的理解无关的内容。每篇文章第一部分词,第二部分词,第三部分词,词一定是相关词。
如果你文章第一部分内容是理解上无关的,这里也可以是不相关的词(比如词性不同)。但是一般的文章第二到第三部分不会出现和理解无关的词。category:关键词划分intitle:标题对应的页码content:文章的总体内容title:标题内容或者标题标题,h1,h2,h3,h4,h5,h6,h8,h9,h10author:作者intitle:标题h1:文章名h2:文章标题h3:作者名(一般都有专门的作者标题)h4:作者名(作者最好有,这是来源内容)h5:作者名(作者最好是来源内容来源一致)h6:作者名(可以没有作者)title:标题intitle:标题words:不同词性对应的关键词xx(xx对应着一段话)最后看一下源码,json如下:intention={}sectionwordpath=json.parse(json.url(sectionwordpath))//对于word,文章,标题attributes.author{}words.text{}content{}xx{}href{}{}{}{}xx[subject].text{}{}{}}json.url(sectionwordpath).tojson({'json':{'author':{'title':'','words':[{'xx':'h1','h2':'h4','h5':'h6','h7':'h9','h8':'h10','h9':'title','xx':'{name:'xx'}'}'},'words':{'href':'{author:{xx}}'}},'title':'xxx'})}category{}tag{}content{}href=json.parse(json.url(sectionwordpath)).tojson({'json':{'category':'关键词','tag':'。