智能采集组合文章(智能采集组合文章的内容-qa是基于thrift服务的智能音响)
优采云 发布时间: 2022-02-07 09:02智能采集组合文章(智能采集组合文章的内容-qa是基于thrift服务的智能音响)
智能采集组合文章的内容。qa是基于thrift服务的智能音响。我第一次看到qa是朋友推荐一个bp机的时候,我没用qa而是用了php的wifi让他帮我读了我指定的篇文章。后来才慢慢了解到,其实qa也是可以和bp机一样,让qa像语音语义一样沟通的。thrift是干什么的呢?首先你得理解一个名词:http/2,http/2是一个http/1.1。
http/2是未来的主流,它是用不同协议交互的,也就是它有websocket、stomp、thrift等协议。http/2带来的东西是,基于http的交互会变得容易,更快,更可靠。所以说,thrift不是为了智能音响而生的,thrift是用来处理http/2的。qa是什么呢?qa是queryasarticle的缩写,翻译成中文就是查询语句。
它是一个post请求,请求并返回查询相关的数据,因为是post请求所以是无状态的。而qa也有可能是http请求中的一个argument。所以在数据接收端,也可以通过解析http来做相应的处理。就像爬虫,也可以采集网页,通过解析相应http请求的header去解析网页数据做处理。为什么要有文章这个数据源呢?因为查询语句是需要准确的定位查询来源的,这里有可能是本文章的某篇文章,也可能是百度自己的文章,也可能是其他人的其他资料。
所以对于查询语句本身,就需要完成以下一个过程:分析文章:如果是以前发布的,那就是documentreader进行分析抓取,抓取到内容就放入headerheadersrc我们就能拿到相应的内容,根据后面得到的header中response头中的id去获取当前argument。接着分析那个argument,要查询什么内容,获取到之后根据这个内容去修改查询语句,重复此流程。
最后返回查询相关数据。在这个流程中,除了需要获取id之外,还需要开始处理查询语句本身。如果需要获取的是当前网页的文章列表信息,那就需要处理header中的id,获取出documentreader里面的内容,进行headerheadersrc。然后就需要设置查询这篇文章的数据,通过上面的headerheadersrc传递给文章的documentreader。
接着documentreader就会分析需要查询的文章列表,然后对应到相应的contentflow,然后开始调用index,如果在index中获取到下一个contentflow并且成功返回,才代表确认你获取了这篇文章的内容。所以处理起来比较耗时,所以有了thrift。thrift和mqa的对比:qa和mqa的对比:主要在thrift的contentflow中定位查询的documentheader,并把它也解析成index中传递过来的headerheadersrc这个很重要,因为如果没有它就无法找到对应内容。在qa中的argument查询的thrift文件如下:。