采集自动组合 干货教程:云海天教程
优采云 发布时间: 2022-12-19 11:23采集自动组合 干货教程:云海天教程
1.什么是ES?
es是一个基于Lucene的搜索服务器,一个基于分布式多用户能力的全文搜索引擎,一个restful web界面。
白话:它是一个分布式的、高性能的、高可用的、可扩展的搜索和分析系统。
2、ES的作用是什么?
一种。分布式搜索引擎和数据分析引擎
b. 全文搜索、结构化搜索、数据分析
C。近实时处理海量数据。
d.elasticsearch是对传统数据库的补充,如全文搜索、同义词处理、相关性排名(如热度)、复杂数据分析等。
3、ES和我们常用的数据库有什么区别?
1.响应时间非常快(PB级数据是毫秒级响应)
2.分词(倒排索引)
查询收录“搜索引擎”的文档
1.反向排序得到“搜索引擎”对应的文档id列表,有1,3
2、通过正排序索引查询1和3的完整内容。
3.返回播种结果。
4.遍历方法
ES没有事务的概念,不支持回滚,不能恢复删除的数据。
Relational DB -> Databases -> Tables -> Rows -> Columns Relational database 数据库表的行和列 Elasticsearch -> Indices -> Types -> Documents -> Fields Elasticsearch 索引(indexName) 类型(type) 文档字段(field)
4、ES的使用场景是什么?
1.记录和日志分析
Logstash 是一个开源的服务器端数据处理管道,支持各种输入选项。它可以同时从多个公共源中捕获事件,同时从多个数据源中获取数据,进行转换,然后发送到我们常用的ES中。.
2. 采集 和组合公共数据
与日志数据一样,Elastic Stack 拥有大象工具,可以轻松地爬取远程数据并为其编制索引。
3.全文搜索
4. 事件数据和指标
ES 可以很好地处理时间序列数据,例如指标和应用程序事件。
5.数据可视化
Elasticsearch 有常见的查询。
NativeSearchQueryBuilder nativeSearchQueryBuilder = new NativeSearchQueryBuilder();
//聚合 title分组为例 出现的频率按照降序排名,(热度排名)
nativeSearchQueryBuilder
.withIndices("aegis")
.withTypes("positions")
.withQuery(QueryBuilders.matchAllQuery());
TermsAggregationBuilder aggregationBuilder = AggregationBuilders.terms("agg").field("brand.keyword")
.subAggregation(AggregationBuilders.terms("agg").field("title.keyword"));
// MinAggregationBuilder minAggregationBuilder = AggregationBuilders.min("price");
nativeSearchQueryBuilder.addAggregation(aggregationBuilder);
Aggregations aggregations = elasticsearchTemplate.query(nativeSearchQueryBuilder.build(), new ResultsExtractor() {
@Override
public Aggregations extract(SearchResponse searchResponse) {
<p>
return searchResponse.getAggregations() ; //.get("agg");
}
});
//StringTerms title_term = (StringTerms) aggregations.asMap().get("agg");
Map stringAggregationMap = aggregations.asMap();
System.out.println(stringAggregationMap.get("agg"));
</p>
5.属性注解类型
1. Document文档对象(索引信息,文档索引)
(1) indexName :索引库的名称,建议使用项目名称
(2) type:类型,建议使用实体类名
(3)indexStoreType:索引文件存储类型
(4)shards:默认分区数
(5)refreshInterval:刷新间隔
Field 每个文档的Field配置(类型、分词、存储、tokenizer)
(1)类型:FieldType.Auto,自动检测类型
(2)index:FieldIndex.analyzed,默认分词,一般默认分词就可以了,除非找不到这个字段
(3) format:DateFormat.none,时间类型格式化
(4)store默认不存储原文
(5)searchAnalyzer:指定字段使用的分词器
(6)Analyzer:索引指定字段时指定的分词器
(7)ignoreFields:如果一个项目符号需要忽略
汇总:自动采集站长网
采集 的访问者数量已自动达到 0。如需查询本站相关权重信息,可点击“爱站数据”和“Chinaz数据”进入;以目前的网站数据为参考,我建议大家以爱站数据为准,更多的网站价值评估因素如:自动采集站长网站访问速度、搜索引擎收录和索引数量、用户体验等;当然,评价一个网站的价值,最重要的还是要根据自己的需求和需要,有些具体的数据需要和自动采集的站长协商。比如站的IP、PV、跳出率等等!