ElasticSearch

Версия 5.31 от Alexandr Fokin на 2022/08/14 15:55

ElasticSearch

NoSql база данных для хранения документов. Одно из основных функций - возможность выполнения полнотекстового поиска по документа.
В качестве интерфейса взаимодействия выступает HTTP Api.
Написан на Java, механизм поискового движка основан на библиотеки Apache Lucene, для логирования используется Apache Log4j.

Структурные элементы

Индекс | Index

Содержит группу Типов.
Упрощенно аналог БД.

Тип | Type

Содержит группу Документов и метаданные Маппинг.
Упрощенно - аналог таблицы.

Предполагает группировку документов с единой структурой.

Маппинг | Mapping

Содержащий информацию о структуре всех документов внутри Типа.
Для каждого поля в документах типа определяется его тип данных, которые влияет на то, как поле будет использоваться с точки зрения поиска. При этом пытаясь автоматически определить тип данных.

В случае добавления нового документа с полем, сведений о котором нет в маппинге, метаданные о поле автоматически заносяться в маппинг.
Добавление документа, содержащего поле с типом данных, отличным от метаданных в маппинге, приведет к ошибке.

Не рекомендуется иметь несколько Типов в едином Индексе, у которых в Маппинге имеются поля с одинаковыми названиями, но разными типами данных.

Документ

Принадлежит 1 группе.
Уникально определяется совокупностью идентификаторов <IndexName>.<TypeName>.<DocumentId>.

Поля:


Id	DocumentId может генерироваться как клиентом, так и сервером.
_source	Оригинальный загруженный документ
_all	Конкатенация всех свойств документа (используется, если при поиске не указаны конкретные поля) (через Маппинг можно явно исключить определенные поля документа)
_timestamp	Временная отметка
_ttl	Временная задержка, после которой документ будет автоматически удален
_version	Версия документа для механизма оптимистичных блокировок.

Операция добавления (индексирования) документа.

При добавлении для документа определяется шард для размещения. Сначала документ отправляется на Master экземпляр шарда, а от него также распространяется на Slave реплики шарда.

После завершения запроса на добавления документа, его содержимое может быть не доступно для поиска т.к. индексация новых документов выполняется сервером ElasticSearch периодически, через заданный промежуток времени (частота задается через параметр Индекса).

Операция обновления документа.

Загрузка новой версии документа, полностью затирая предыдущий.

Upsert обновить или создать, если не существует.

Обновление существующего документа с использованием констант.

Обновление существующего документа с использованием данных из текущего документа и скриптов на Apache Groovy.

Можно использовать поле _version для обработки параллелизма.

Операция поиска.

Может осуществляться как в рамках одного конкретного Типа, так и на уровне Типов, расположенных в различных Индексах.

Операция получения документа по DocumentId.

В отличии от операции поиска, в которой документ может быть не доступен сразу же, запрашивать документ по DocumentId можно сразу после добавления.
Является дешевой операций т.к. не требует выполнения поиска.

Операция удаления.

Удаление Индекса	Быстрая операция, реализуется физическим удалением файлов. Можно указать несколько в одном запросе.
Закрытие Индекса	Позволяет выгрузить и не использовать индекс, без физического удаления. Позже он может быть загружен.
Удаление Типа	Удаление Типа, его маппинг, всех вложенные документы.
Удаление одного/группы документов	Документы не удаляются сразу, а помечаются на удаление (само удаление будет выполнено в фоне), перестают выдаваться в поисковой выдаче. Можно выполнить удаление на основе списка DocumentId или на основе поискового запроса, который отберет документы для удаления. Также, как и поисковый запрос, может затрагивать документы из нескольких Типов и даже нескольких Индексов. Можно использовать поле _version для обработки параллелизма. База еще некоторое время удерживает сочетание DocumentId + version, и не позволит обратиться к меньшей версии.

Механизм масштабирования и отказоустойчивости.

Несколько узлов объединяются в кластер. Клиентские приложения могут взаимодействовать с любой из нод кластера.
Поддерживается шардинг - разбиение данных на блоки и распределение их по узлам кластера.
Для каждого шарда можно назначать кол-во реплик, копий. При этом среди репликаций один шард будем master, а остальные slave.

Рекомендуется наличие быстрого и надежного сетевого соединения между узлами кластера. (split brain дописать позже).

Параметры кол-ва шардов и реплик определяются на уровне Индекса. Кол-во реплик можно менять в рантайм, а кол-во шардов нельзя.
1 экземпляр шарда ElasticSearch соответствует 1 экземпляру индекса Apache Lucene.

Индекса Apache Lucene

Содержит оригинальные документы и (Term dictionary maps).
Term dictionary maps - содержит информацию о всех уникальных словах-терминах, номерах документов, в которых они расположены, а также кол-во повторений для каждого документа.

Ссылки:

The heart of the free and open Elastic Stack
https://www.elastic.co/elasticsearch/

Elasticsearch для .NET - разработчиков
https://www.youtube.com/watch?v=iQ-Cmn6hgJg

Основы Elasticsearch
https://habr.com/ru/post/280488/

miollek/Free-Elasticsearch-Books
https://github.com/miollek/Free-Elasticsearch-Books