详细数据:精通日志查询:如何翻页获取日志和计算结果
优采云 发布时间: 2022-11-27 09:37详细数据:精通日志查询:如何翻页获取日志和计算结果
摘要: 精通日志查询:如何翻页获取日志和计算结果 日志服务提供一站式的日志采集、存储、查询、计算功能。交互式日志采集体验,释放用户运维压力,解放用户双手;交互式查询分析体验,让用户自由构建数据模型,探索性分析,深入挖掘数据。
精通日志查询:如何翻页获取日志和计算结果
日志服务提供一站式的日志采集、存储、查询、计算功能。交互式日志采集体验,释放用户运维压力,解放用户双手;交互式查询分析体验,让用户自由构建数据模型,探索性分析,深入挖掘数据。
用户可以利用日志服务的查询分析能力,不仅可以在控制台进行交互查询,还可以通过SDK在程序中使用查询分析。当计算结果比较大时,如何在本地读取全量结果是一个比较麻烦的问题。好在日志服务提供了翻页功能,不仅可以翻页阅读原创
日志内容,还可以翻页阅读本地的SQL计算结果。开发者可以使用日志服务提供的SDK,或者CLI,通过读取数据接口读取日志。
查询和分析使用不同的分页方式
日志服务提供统一的查询日志入口:GetLogstoreLogs,可以根据关键字查询日志原创
内容,也可以提交SQL计算获取计算结果。
查询翻页用例
在GetLogStoreLogs api中,有offset和lines两个参数
阅读页面时,不断增加偏移量。读取到某个偏移量后,得到的结果行数为0,结果进度为完成状态。认为所有的数据都读完了,可以结束了。.
翻页代码示例
翻页伪代码:
" />
Python翻页阅读示例
更详细的案例参考文档:
Java翻页阅读示例
更详细的案例参考文档
翻页读取SQL分析结果
SQL分析中,GetLogStoreLogs API参数中的offset和lines是无效的,补上。也就是说,如果按照上面翻页的方法遍历offset翻页,读取原来的内容,那么每条SQL执行的结果都是一样的。理论上我们可以一次调用得到所有的计算结果,但是如果结果集过大,可能会出现以下问题:
为了解决SQL翻页问题,我们提供了标准的SQL限制翻页语法
一个典型的案例,如果下面的SQL一共产生了2000条日志
然后可以翻页,每次阅读500行,共完成4次阅读:
SQL翻页示例
在程序中,SQL翻页的伪代码是这样写的:
示例 Python 程序:
示例 Java 程序:
扩展信息
日志服务使用手册,最全资料
日志服务器分析demo,Nginx日志,CDN日志,DDOS日志,SLB日志demo,grafana,Datav大屏demo
5分钟搭建实时分析网站:Grafana+日志服务实战
汇总:02数据采集、清洗处理及质量检查流程汇编v1 0.pdf 30页
旅游局旅游基础数据库建设项目数据采集、清洗处理及质量检测过程编制版本控制信息版本日期起草及修改说明V1.0版本2014年12月华胜天成V1.1版本2015年8月华胜天成所有内容为用户所有,专有. 未经用户明确书面许可,任何组织和个人不得为任何目的、以任何形式、以任何方式传播本文的部分或全部内容。华胜天成科技二目录 1. 概述 2 2. 总体设计 22.1 总体架构 22.2 数据集成流程 32.3 数据交换流程设计 42.3.
云源数据既包括景区、旅行社、酒店等重要的结构化旅游要素,也包括博客、新闻、贴吧、微博等非结构化旅游衍生数据。这两类数据不仅相互关联,而且形成一个系统。因此,尤其需要对相关数据的采集、同步、处理、清洗等进行梳理,使各环节环环相扣、有序执行。行业系统数据源包括景区管理系统、导游数据管理系统、旅行社报备系统和国家重点景区客流系统。2. 总体设计 2.1 总体框架 总体框架图 华盛天成科技 2 2.2 数据集成流程 根据总体设计思路,数据集成的实现按照处理过程可以分解为数据采集、数据同步、数据清洗(包括自动处理和人工审核处理)。以及数据质检等环节,最终实现数据入库工作。云基础数据(包括景区、酒店、旅行社等基础数据)的采集、存储、审核、清洗、归并。总体流程图如下: 数据集成流程图。增量数据同步到云数据镜像库(V1)库。Reiking数据交换平台是整个数据清洗和转换检查的核心。定时触发自动程序进行数据清洗处理,生成大数据平台需要的Json格式信息。他终于意识到:1、将处理后的基础数据推送到基础数据库(Oracle);2. 将处理后的动态数据(Json)推送到大数据平台。
3、将基础数据库(Oracle)中的导游、景点等基础数据推送给华盛天成科技 3 2.3 数据交换流程设计 2.3.1 数据交换流程标准化 数据库接口名称标准化权限,避免对数据库的操作。数据库接口名根据对应的数据库类型和数据库所在的IP地址来命名。比如11中的MySql数据库中的Test数据库可以按照MySql-111-Test命名。对于其他类型的数据库,以上命名规则通用,特殊情况具体考虑,命名一定要规范。目录名称标准化目录采用分级格式排列,各级目录均以中文标注。总目录名称为:旅游局基础数据库嫉妒数据处理。子节点大致可分为:01采集库与镜像库同步、02镜像库到大数据平台、03镜像库到PDA数据仓库、04镜像库到信息网(DB2)、05镜像库到基础库, 06 从业务数据库到基础数据库,07业务数据库到PDA数仓,08 PDA数仓到大数据平台的八类数据交换处理服务。各种名称是根据不同的目的和数据处理顺序来命名的。其中,01采集库与镜像库的同步还包括:基本信息同步、评论信息同步、路线\策略同步、图片库同步、
" />
02 到大数据平台的镜像库包括:推送到第一平台、推送到第二平台、推送到第三平台等样式名称。华胜天成科技 4 服务名称标准化 服务名称多样化,可以根据不同的类型、不同的数据库表名、源IP和目标IP地址等进行命名,例如基础信息同步的服务名称为:Travel__71,即就是,表名是把Travel表从数据库同步到71数据库。其他需要特殊处理的,按特殊处理。运行菜单格式规范了运行菜单需要和服务目录创建对应的运行菜单,目录结构遵循服务目录结构。如下图所示:华胜天成科技 5 2.4 业务代码标准化 2.4.1 行政区划代码标准化 根据国家标准统一行政区划代码,代码标准根据每年发布的数据进行更新。2.4.2 新建行政区划代码表 参照已发布的行政区划代码表,创建行政区划代码标准表。来源:MySQL数据库 服务器:26 数据库:weibo_info_2:city_code 目的:MySQL数据库 服务器:1(192.168.102.) 数据库:pom_ct_data 新建_:sta_city_code 华盛天成科技 6 2.4.3 更新采集数据库elint_dest_city中的行政区划代码表采集
database 在表中增加一个标准的行政区划代码字段,
添加字段SQL语句:alter elint_dest_city add(`sta_city_code` int(6) DEFAULT NULL COMMENT '标准行政区划代码') 匹配过程程序代码: 主类名:MatchCode 注:此项已实现,不用动,如果你需要打电话直接上桌就行了。2.5 数据采集与同步 2.5.1 云数据采集 1. 基础数据采集 基础数据采集渠道主要是基于全国31个省市旅游信息网站发布的景区、旅行社、酒店等基本信息。2.电商点评数据采集 电商点评数据采集渠道主要为国内各大电商,包括旅游、驴妈妈、同程旅行、马蜂窝等。3、微博数据采集(微博热词、热词等处理)) 抓取微博数据的方式有以下三种: 1) 单独使用爬虫,使用类似的元词搜索方式。2)编写程序调用API接口采集关注度视角的微博数据。3)爬虫与API的结合。针对新浪微博越来越严格的限制,通过爬虫和API相结合的方式进行数据采集。微博先找转发,再找评论。接下来,找到转发器的详细信息。(微博采集
深入了解) 华盛天成科技7条微博建议:少采集
转发。采集
是顺序的。4、贴吧数据主要以贴吧、天涯论坛等帖子数据为主。2)编写程序调用API接口采集关注度视角的微博数据。3)爬虫与API的结合。针对新浪微博越来越严格的限制,通过爬虫和API相结合的方式进行数据采集。微博先找转发,再找评论。接下来,找到转发器的详细信息。(微博采集
深入了解) 华盛天成科技7条微博建议:少采集
转发。采集
是顺序的。4、贴吧数据主要以贴吧、天涯论坛等帖子数据为主。2)编写程序调用API接口采集关注度视角的微博数据。3)爬虫与API的结合。针对新浪微博越来越严格的限制,通过爬虫和API相结合的方式进行数据采集。微博先找转发,再找评论。接下来,找到转发器的详细信息。(微博采集
深入了解) 华盛天成科技7条微博建议:少采集
转发。采集
是顺序的。4、贴吧数据主要以贴吧、天涯论坛等帖子数据为主。微博先找转发,再找评论。接下来,找到转发器的详细信息。(微博采集
深入了解) 华盛天成科技7条微博建议:少采集
转发。采集
是顺序的。4、贴吧数据主要以贴吧、天涯论坛等帖子数据为主。微博先找转发,再找评论。接下来,找到转发器的详细信息。(微博采集
深入了解) 华盛天成科技7条微博建议:少采集
转发。采集
是顺序的。4、贴吧数据主要以贴吧、天涯论坛等帖子数据为主。
5、新闻博客数据 新闻博客数据主要来源于国内门户网站旅游频道,包括人民网旅游频道和新华网旅游频道。博客主要是新浪博客和搜狐博客。2.5.2 云数据同步 实现云采集数据库与云采集数据库镜像数据库的同步,将实时数据第一时间同步到镜像数据库中使用。数据同步分为基础数据同步和动态数据同步。其中,基础数据与更新的时间间隔比较长,周期为一个月。由于动态数据更新快,每小时新增数据量在万条级别。下面是具体配置。1. 基础数据同步 基础数据采集后会略有增加,大部分是更新操作,所以基础数据同步是基于时间戳的。同步周期:一周 2、动态数据同步 动态数据包括实时添加的数据,如电商评论、旅游路线、新闻信息等,该类数据量增长迅速。同步间隔很短。同步周期:1小时 2.6业务系统数据抽取 2.6.1国家重点景区客流系统数据增量抽取并输出结果。通过ReiKing工具实现客流系统数据库和PDA数据仓库的增量数据提取,并将增量数据实时推送到PDA数据仓库。对Oracle数据性能影响不大。
" />
国家重点景区客流数据库:Oracle 抽取目的地:PDA数据仓库 华盛天成科技 8 抽取周期: 2.6.2 A级景区管理系统增量数据抽取 A级景区管理系统采用MySql数据库,同样采用ETL该工具建立连接,将A级景区管理系统的数据提取到PDA数据仓库进行数据处理。A级景区管理系统数据库:MySql数据库 提取目的地:PDA数据仓库 提取时间:1个月 2.6.3导游系统数据提取 导游系统使用Sybase数据库,用户未提供数据库级账号暂且。ETL的提取暂时没有实现。旅游局提供导游数据库导出的TXT文件,约150M,共约80万条导游信息。以及导游一寸*敏*感*词*照734797张。导游资料中各字段含义:、导游编号、姓名、性别、*敏*感*词*书编号、*敏*感*词*书编号、地区、年审有效期、发卡时间、语言、等级、旅行社、国籍、电话、教育、出生日期、专业*敏*感*词*。导游数据处理流程如下: 导游基本信息入库:将旅游局提供的导游信息150M TXT文件导入基础数据库。导入底层数据库中字段属性对应的文本文件的字段属性,
保持图片字段类型为CLOB,为下一步导入图片做准备。1、导游图片信息导入 [1] 旅游局赠送的图片包内含导游1寸照片734797张,图片类型为jpg格式,以导游编号命名。例如:.jpg。【2】图片存储中间表。由于图片是以指南编号命名的,所以编号作为唯一匹配的关系字段。为了导入方便,先把图片导入到中间表中,包括三个字段:ID、NAME、PICTURE。该表的作用是将本地jpg格式的图片导入到该表中,天成科技9的NAME字段为图片文件名。方便之后,导游的图片信息通过与导游基本信息中的编号匹配存储。[3] 将所有jpg格式的图片存入中间表后,按编号匹配存入。即中间表的NAME字段与基础库中导游表的字段匹配。最后将图片导入基础数据库。【4】导入过程中的问题。问题一:导出的734797张图片中,有52张图片名称不规则。导出时有中文“(”和“)”,导致Linux系统下出现乱名,找不到本地文件。个别文件的乱码只有重命名后才能入库。问题2:指南数据中有14条重复数据。导游和年检日期不一样,其他领域的信息是一样的。2、巡查员信息存储 2、业务系统数据及大数据平台接口定义(待补充) A级景区管理系统、重点景区客流系统数据结构字段见附件。
如何将这些数据推送到大数据平台,利用虚拟数据访问来支持临时策略,从长远考虑是否需要补充长效机制。3、云端数据处理 云端采集的数据具有互联网数据的共同特点,如:数据量大、数据类型多样、数据来源广泛。云端采集
的处理过的数据一定是杂乱无章的,这就不可避免地需要对数据进行人工处理。我们需要使用 ETL 工具和其他数据处理工具来提取、处理和转置在云端采集
的数据。经过深度处理的数据就是我们需要的可用数据。3.1 基础数据处理 3.1.1 核心基础数据 基础数据包括景区、酒店、旅行社、导游等。1. 景区基础数据处理 华盛天成科技10个景区基础数据云源包括各省旅游信息网站、电商渠道、景区官网渠道。待处理数据包括五星级景区、四星级景区、三星级景区、二星级景区、一星级景区等,待处理数据量为180个5星和 2000 为 4 星。景区基础数据的业务系统来源包括A级景区管理系统。2、酒店基础数据处理酒店基础数据云源包括各省旅游信息网站、电商渠道、景区官网渠道,需要处理的数据包 待处理数据包括五星级景区、四星级景区、三星级景区、二星级景区、一星级景区等,待处理数据量为180个5星和 2000 为 4 星。景区基础数据的业务系统来源包括A级景区管理系统。2、酒店基础数据处理酒店基础数据云源包括各省旅游信息网站、电商渠道、景区官网渠道,需要处理的数据包 待处理数据包括五星级景区、四星级景区、三星级景区、二星级景区、一星级景区等,待处理数据量为180个5星和 2000 为 4 星。景区基础数据的业务系统来源包括A级景区管理系统。2、酒店基础数据处理酒店基础数据云源包括各省旅游信息网站、电商渠道、景区官网渠道,需要处理的数据包 景区基础数据的业务系统来源包括A级景区管理系统。2、酒店基础数据处理酒店基础数据云源包括各省旅游信息网站、电商渠道、景区官网渠道,需要处理的数据包 景区基础数据的业务系统来源包括A级景区管理系统。2、酒店基础数据处理酒店基础数据云源包括各省旅游信息网站、电商渠道、景区官网渠道,需要处理的数据包