智能采集组合文章(智能采集组合文章的内容-qa是基于thrift服务的智能音响)

优采云发布时间: 2022-02-07 09:02

　　智能采集组合文章的内容。qa是基于thrift服务的智能音响。我第一次看到qa是朋友推荐一个bp机的时候，我没用qa而是用了php的wifi让他帮我读了我指定的篇文章。后来才慢慢了解到，其实qa也是可以和bp机一样，让qa像语音语义一样沟通的。thrift是干什么的呢？首先你得理解一个名词：http/2，http/2是一个http/1.1。

　　http/2是未来的主流，它是用不同协议交互的，也就是它有websocket、stomp、thrift等协议。http/2带来的东西是，基于http的交互会变得容易，更快，更可靠。所以说，thrift不是为了智能音响而生的，thrift是用来处理http/2的。qa是什么呢？qa是queryasarticle的缩写，翻译成中文就是查询语句。

　　它是一个post请求，请求并返回查询相关的数据，因为是post请求所以是无状态的。而qa也有可能是http请求中的一个argument。所以在数据接收端，也可以通过解析http来做相应的处理。就像爬虫，也可以采集网页，通过解析相应http请求的header去解析网页数据做处理。为什么要有文章这个数据源呢？因为查询语句是需要准确的定位查询来源的，这里有可能是本文章的某篇文章，也可能是百度自己的文章，也可能是其他人的其他资料。

　　所以对于查询语句本身，就需要完成以下一个过程：分析文章：如果是以前发布的，那就是documentreader进行分析抓取，抓取到内容就放入headerheadersrc我们就能拿到相应的内容，根据后面得到的header中response头中的id去获取当前argument。接着分析那个argument，要查询什么内容，获取到之后根据这个内容去修改查询语句，重复此流程。

　　最后返回查询相关数据。在这个流程中，除了需要获取id之外，还需要开始处理查询语句本身。如果需要获取的是当前网页的文章列表信息，那就需要处理header中的id，获取出documentreader里面的内容，进行headerheadersrc。然后就需要设置查询这篇文章的数据，通过上面的headerheadersrc传递给文章的documentreader。

　　接着documentreader就会分析需要查询的文章列表，然后对应到相应的contentflow，然后开始调用index，如果在index中获取到下一个contentflow并且成功返回，才代表确认你获取了这篇文章的内容。所以处理起来比较耗时，所以有了thrift。thrift和mqa的对比：qa和mqa的对比：主要在thrift的contentflow中定位查询的documentheader，并把它也解析成index中传递过来的headerheadersrc这个很重要，因为如果没有它就无法找到对应内容。在qa中的argument查询的thrift文件如下：。

0

2022-02-07

智能采集组合文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

智能采集组合文章(智能采集组合文章的内容-qa是基于thrift服务的智能音响)

0 个评论

发起人

AI时代内容工厂

智能采集组合文章(智能采集组合文章的内容-qa是基于thrift服务的智能音响)

0 个评论

发起人

相关问题