采集自动组合 干货教程:云海天教程

优采云 发布时间: 2022-12-19 11:23

  采集自动组合 干货教程:云海天教程

  1.什么是ES?

  es是一个基于Lucene的搜索服务器,一个基于分布式多用户能力的全文搜索引擎,一个restful web界面。

  白话:它是一个分布式的、高性能的、高可用的、可扩展的搜索和分析系统。

  2、ES的作用是什么?

  一种。分布式搜索引擎和数据分析引擎

  b. 全文搜索、结构化搜索、数据分析

  C。近实时处理海量数据。

  d.elasticsearch是对传统数据库的补充,如全文搜索、同义词处理、相关性排名(如热度)、复杂数据分析等。

  3、ES和我们常用的数据库有什么区别?

  1.响应时间非常快(PB级数据是毫秒级响应)

  2.分词(倒排索引)

  查询收录“搜索引擎”的文档

  1.反向排序得到“搜索引擎”对应的文档id列表,有1,3

  2、通过正排序索引查询1和3的完整内容。

  3.返回播种结果。

  4.遍历方法

  ES没有事务的概念,不支持回滚,不能恢复删除的数据。

  Relational DB -> Databases -> Tables -> Rows -> Columns Relational database 数据库表的行和列 Elasticsearch -> Indices -> Types -> Documents -> Fields Elasticsearch 索引(indexName) 类型(type) 文档字段(field)

  4、ES的使​​用场景是什么?

  1.记录和日志分析

  

  Logstash 是一个开源的服务器端数据处理管道,支持各种输入选项。它可以同时从多个公共源中捕获事件,同时从多个数据源中获取数据,进行转换,然后发送到我们常用的ES中。.

  2. 采集 和组合公共数据

  与日志数据一样,Elastic Stack 拥有大象工具,可以轻松地爬取远程数据并为其编制索引。

  3.全文搜索

  4. 事件数据和指标

  ES 可以很好地处理时间序列数据,例如指标和应用程序事件。

  5.数据可视化

  Elasticsearch 有常见的查询。

   NativeSearchQueryBuilder nativeSearchQueryBuilder = new NativeSearchQueryBuilder();

//聚合 title分组为例 出现的频率按照降序排名,(热度排名)

nativeSearchQueryBuilder

.withIndices("aegis")

.withTypes("positions")

.withQuery(QueryBuilders.matchAllQuery());

TermsAggregationBuilder aggregationBuilder = AggregationBuilders.terms("agg").field("brand.keyword")

.subAggregation(AggregationBuilders.terms("agg").field("title.keyword"));

// MinAggregationBuilder minAggregationBuilder = AggregationBuilders.min("price");

nativeSearchQueryBuilder.addAggregation(aggregationBuilder);

Aggregations aggregations = elasticsearchTemplate.query(nativeSearchQueryBuilder.build(), new ResultsExtractor() {

@Override

public Aggregations extract(SearchResponse searchResponse) {

<p>

return searchResponse.getAggregations() ; //.get("agg");

}

});

//StringTerms title_term = (StringTerms) aggregations.asMap().get("agg");

Map stringAggregationMap = aggregations.asMap();

System.out.println(stringAggregationMap.get("agg"));

</p>

  5.属性注解类型

  1. Document文档对象(索引信息,文档索引)

  (1) indexName :索引库的名称,建议使用项目名称

  (2) type:类型,建议使用实体类名

  (3)indexStoreType:索引文件存储类型

  (4)shards:默认分区数

  (5)refreshInterval:刷新间隔

  Field 每个文档的Field配置(类型、分词、存储、tokenizer)

  (1)类型:FieldType.Auto,自动检测类型

  (2)index:FieldIndex.analyzed,默认分词,一般默认分词就可以了,除非找不到这个字段

  (3) format:DateFormat.none,时间类型格式化

  (4)store默认不存储原文

  (5)searchAnalyzer:指定字段使用的分词器

  (6)Analyzer:索引指定字段时指定的分词器

  (7)ignoreFields:如果一个项目符号需要忽略

  汇总:自动采集站长网

  

  采集 的访问者数量已自动达到 0。如需查询本站相关权重信息,可点击“爱站数据”和“Chinaz数据”进入;以目前的网站数据为参考,我建议大家以爱站数据为准,更多的网站价值评估因素如:自动采集站长网站访问速度、搜索引擎收录和索引数量、用户体验等;当然,评价一个网站的价值,最重要的还是要根据自己的需求和需要,有些具体的数据需要和自动采集的站长协商。比如站的IP、PV、跳出率等等!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线