# elasticsearch

limits.conf配置说明

最近发生了奇怪的事情,mysql总是会连不上,查了半天原因,最后发现进程文件没有生成。es报警“Too many open files”。搜索才发现是,打开文件太多了,超过了限制。解决方法是修改/etc/security/limits.conf。另外还牵扯到了另一个配置file-max。经过调试还是踩了不少坑的。坐下笔记,防止重复踩坑。

elasticsearch学习笔记 - 集群相关术语

基本概念

  1. Cluster:集群。
    顾名思义就是好多es服务器,拜了把子成了兄弟,在一起搞事情,他们讲义气不背叛,一个有难八方支援。比如你有8台服务器,其中一台挂了,剩余的兄弟会立刻顶上。客户让然可以正常使用你的服务,从而实现高可用性

  2. Node:节点。
    集群中的每台服务器称之为一个节点。每个节点都是一个兄弟。既然拜了把子,那就有个长幼顺序(节点类型),这个看下面的节点类型小节,先看分片。

  3. Shard:分片。
    一只烤全羊,一个人肯定吃不了,怎么办呢?大家分着吃啊。所以就有了分片,大量的数据汇聚过来,一个节点可能由于内存或磁盘处理能力不足,那就把数据切成一小块一小块的(这就是分片),好几个兄弟一起处理。每个分片放到不同的服务器上。 这样处理起来就快了。
    有肉一起吃,敌人来了当然也要一起扛。当有查询过来的时候,ES会把查询发送给每个相关的分片,并将结果组合在一起,然后返回给用户。

  4. Replia:副本。
    分着吃羊肉,羊是吃完了,但每个人分到的不一样啊,有人吃羊腿,有人吃羊尾巴,显然这样长期下去也是不行的。怎么办呢,再来一只,吃羊腿的再吃羊尾巴,吃羊尾巴的再吃羊腿,这样就公平了。每个人都能说出整只羊各个部位是什么味道。
    同样的道理,数据分片,放在了不同的节点上,如果一台服务器挂掉了,那岂不是数据就丢失了,这种事是不允许发生的,因此就有了副本。每个切片复制一份,发送给其他节点。这样保证每个节点有完整的数据。集群中有一台宕机了也不影响使用。

elasticsearch学习笔记 - 安装

最近用到了es,于是从网上找资料,但是好多都过时了,比如type在elasticsearch 6.0开始已经不推荐使用了。联合查询6.x使用的是join类型的字段,也不在支持type之间的联合查询。问什么要取消type呢?官方给出的理由是

①,而在我们elasticsearch中同一 Index 下,同名 Field 类型必须相同,即使不同的 Type;
②, 同一 Index 下,TypeA 的 Field 会占用 TypeB 的资源(互相消耗资源),会形成一种稀疏存储的情况。尤其是 doc value ,为什么这么说呢?doc value为了性能考虑会保留一部分的磁盘空间,这意味着 TypeB 可能不需要这个字段的 doc_value 而 TypeA 需要,那么 TypeB 就被白白占用了一部分没有半点用处的资源;
③,Score 评分机制是 index-wide 的,不同的type之间评分也会造成干扰。
④,索引元数据本身是放在主节点中维护的,CP 设计。意味着涉及到大量字段变更及元数据变更的操作,都会导致该 Index 被堵塞或假死。我们应该对这样的 Index 做隔离,避免影响到其他 Index 正常的增删改查。甚至当涉及到字段变更十分频繁且无法预定义 schema 的场景时,是否要使用 ES 都应该慎思熟虑了!

出现这种情况主要是在elasticsearch早期时候提出的一些概念,当时为了便于推广,跟关系型数据库作了如下比喻:

myql elasticsearch
database index
table type
column field

很多学习elasticsearch的人估计都看过这个比喻,但其实这是错误的。elasticsearch是基于 Lucene开发的,而在 Lucene中是没有table概念的,有的只是文档和字段。