Was ist OpenSearch?

OpenSearch, definiert

OpenSearch ist eine Open Source-Such- und Analytics Engine, die zum Indizieren, Abfragen und Analysieren von Daten aus einer Vielzahl von Datenquellen verwendet wird.

Basierend auf Apache Lucene und ursprünglich abgeleitet von Elasticsearch– einer weiteren Such- und Analytics Engine – bietet OpenSearch eine skalierbare und verteilte Architektur für Echtzeitsuche, Observability, Analyse und Sicherheitsanalyse-Anwendungsfälle.

OpenSearch umfasst OpenSearch-Dashboards zur Datenvisualisierung und Anwendungsüberwachung. Es verfügt außerdem über ein breites Ökosystem von Plugins, Programmierschnittstellen (APIs) und Clients, die Workflows in modernen Datenumgebungen für die Analyse unterstützen.

Da OpenSearch als Open Source-Projekt mit einer von der Community gesteuerten Roadmap entwickelt wird, können Unternehmen OpenSearch ohne Lizenzbeschränkungen oder Anbieterbindung nutzen. Die Kompatibilität mit früheren Versionen von Elasticsearch – zusammen mit dem erweiterbaren Framework – ermöglicht es Teams, OpenSearch als flexible Analytics-Engine für operative Workloads, maschinelles Lernen und Anwendungen zu nutzen.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Was sind die wichtigsten Funktionen von OpenSearch?

Heutige Unternehmen erzeugen erhebliche Datenmengen, die von unschätzbarem Wert sein können, aber nur, wenn die Daten indexiert, durchsuchbar und in Echtzeit verfügbar sind. OpenSearch bietet diese Funktionalität über eine Open-Source-Sucharchitektur, die auf Skalierbarkeit, Kosteneffizienz und Interoperabilität ausgelegt ist.

In der Praxis bietet OpenSearch Folgendes:

Open-Source-Governance

Unternehmen erhalten vollen Einblick in die Codebasis und Roadmap von OpenSearch, sodass sie die Plattform an interne Anforderungen anpassen können.

Kompatibilität und Migrationsflexibilität

OpenSearch pflegt die Kompatibilität der API- und Abfragesyntax mit Open-Source-Elasticsearch, was bedeutet, dass Unternehmen Workloads ohne umfangreiche Neuschreibvorgänge übernehmen oder modernisieren können.

Skalierbarkeit und Verteilung

Seine Clusterarchitektur unterstützt hohe Verfügbarkeit über Knoten, Replikate und Shards und ermöglicht so eine Suche mit geringer Latenz über große Datensätze (weitere Details siehe Wie OpenSearch funktioniert).

Unterstützung für Observability in Echtzeit

OpenSearch kann Logdateien, Metriken und Traces in großem Maßstab aufnehmen und so die operativen Dashboards für die Fehlersuche und Analyse bereitstellen.

Sicherheits- und Analyseintegration

Mit integrierter Authentifizierung und Zugriffskontrolle können Teams Suchfunktionen über Sicherheits-Workloads hinweg anwenden.

Kosteneffiziente Bereitstellung

Als Open-Source-Software kann OpenSearch lokal, über Cloud-Provider oder durch Managed-Service-Angebote bereitgestellt werden.

Eine kurze Geschichte von OpenSearch

OpenSearch entstand als Reaktion der Community auf die Lizenzänderungen bei Elasticsearch und Kibana, einer beliebten Visualisierungsschicht. Frühere Versionen von Elasticsearch wurden unter der Apache 2.0-Lizenz veröffentlicht, spätere Versionen verwendeten jedoch die Server Side Public License (SSPL) und die Elastic License. Diese Lizenzen schränkten die Wiederverwendung von Open Source ein und stellten Unternehmen, die sich auf frei einsetzbare und weiterverteilbare Such-Software verließen, vor Herausforderungen.

Um ein offenes Suchökosystem zu erhalten, hat Amazon Web Services (AWS) die letzten Apache 2.0-Versionen von Elasticsearch und Kibana geforkt (d. h. eine unabhängige Kopie davon erstellt) und damit das OpenSearch-Projekt ins Leben gerufen. Das Projekt führte neue Funktionen und Verbesserungen im Rahmen eines offenen Governance-Modells ein und erweiterte die Kompatibilität mit Elasticsearch-APIs und Clientbibliotheken, um die Migration zu vereinfachen.

Seitdem hat sich das OpenSearch-Projekt unabhängig weiterentwickelt. Es zeichnet sich durch eine gemeinschaftlich entwickelte Roadmap, Beiträge von verschiedenen Anbietern und ein wachsendes Ökosystem von Plugins aus, die auf GitHub gehostet werden. OpenSearch ist zwar weiterhin mit vielen Elasticsearch-Mustern kompatibel, hat aber seinen Funktionsumfang durch Plugins für die Vektorsuche, die Erkennung von Anomalien und fortgeschrittene Observability-Tools erweitert.

Ist OpenSearch dasselbe wie Elasticsearch?

Obwohl beide Projekte einen gemeinsamen Ursprung haben, trennen sich ihre Wege. Elasticsearch wird unter SSPL und Elastic License mit einer proprietären Feature-Entwicklungsstrategie fortgeführt. OpenSearch hingegen bleibt Apache 2.0-lizenziert und legt Wert auf Offenheit, Erweiterbarkeit und operative Sichtbarkeit. Als Ergebnis bewerten Unternehmen, die zwischen den beiden Modellen wählen, nun nicht nur die Funktionen, sondern auch die Governance-Modelle, die Lizenzbedingungen und die langfristige Ausrichtung des Ökosystems.

Kompatibilität bleibt eine wichtige Brücke zwischen den Projekten: OpenSearch unterstützt weiterhin viele Elasticsearch-APIs, Abfragemuster und Client-Bibliotheken aus früheren Versionen und hilft Teams bei der Migration mit minimaler Refaktorisierung. Außerdem werden ähnliche Repository-Strukturen und Indexformate beibehalten, so dass Benutzer, die von Elasticsearch umsteigen, mit dem System vertraut bleiben.

Wie funktioniert OpenSearch?

OpenSearch basiert auf einer verteilten Architektur, die auf Skalierbarkeit und Leistung ausgelegt ist. Zu den Kernkomponenten gehören Cluster, Knoten, Indizes, Shards und Dokumente – alle arbeiten zusammen, um Daten effizient zu speichern und abzurufen.

Knoten

Knoten sind Server oder containerisierte Instanzen, die Indizierungs-, Abfrage- und Speicheroperationen durchführen. Zu den gängigen Knotentypen gehören:

Master-Knoten: Verwalten den Zustand des Clusters, koordinieren die Platzierung der Shards und pflegen die Metadaten.
Datenknoten: Speichern Dokumente und Shards und führen Indizierungs- und Suchvorgänge aus.
Client-Knoten (Koordinierungsknoten): Leiten Suchanfragen weiter, aggregieren Ergebnisse und unterstützen den Lastausgleich, ohne Daten zu speichern.

Cluster

Ein Cluster ist eine Sammlung von einem oder mehreren Knoten, die zusammenarbeiten, um Daten zu verwalten und Abfragen auszuführen. Cluster bieten Redundanz und Lastenausgleich, sodass Knotenausfälle die Gesamtleistung nicht beeinträchtigen. Jeder Cluster verwaltet Metadaten zu Indizes, Shards und Routing-Informationen.

Indizes

Ein Index ist ein logischer Namensraum, der einer relationalen Datenbanktabelle ähnelt. Er enthält Zuordnungen, die die Struktur von JSON-Dokumenten definieren, sowie Verweise auf die Shards, die diese Dokumente speichern. Der Begriff „Index“ wird auch als Verb verwendet, um den Vorgang des Füllens eines Index mit Daten zu beschreiben.

Dokumente

Dokumente sind JSON-Objekte, die einzelne Datensätze repräsentieren. Einfach ausgedrückt, es sind die Daten, die gespeichert und gesucht werden. Beim Indexieren werden Felder in jedem Dokument analysiert, tokenisiert und in invertierten Indizes gespeichert.

Shards

Shards sind die grundlegenden Speichereinheiten in OpenSearch, in denen Dokumente abgelegt werden. Jeder Index besteht aus primären Shards und optionalen Replika-Shards.

Primäre Shards speichern die erste Kopie der Daten.
Replika-Shards bieten Redundanz und erhöhen den Lesedurchsatz.

Da jeder Shard eine eigenständige Lucene-Instanz (eine eigenständige Suchmaschinenbibliothek) ist, verteilt OpenSearch Shards über Knoten hinweg, um Suchoperationen zu parallelisieren und die Leistung zu skalieren.

Und wie passt das alles zusammen? Wenn ein Dokument indexiert wird, analysiert OpenSearch den Inhalt und verwendet Textanalysatoren und Tokenizer. Nach der Verarbeitung werden die Terme in den entsprechenden Shard geschrieben.

Die Indexierung erfolgt durch Datenknoten und kann für Geschwindigkeit und Zuverlässigkeit über den gesamten Cluster verteilt werden. Abfragen werden dann an einen koordinierenden Knoten gesendet, der die Shards mit relevanten Daten identifiziert, die Abfrage an diese weiterleitet und die Ergebnisse aggregiert.

Denken Sie daran als eine Restaurantküche mit verschiedenen Stationen. Die Indexierung ist wie das Vorbereiten von Zutaten und das Versenden dieser an die richtige Station, damit alles bereit ist, wenn die Bestellung eingeht. Wenn eine Anfrage eingeht, fungiert der Knoten als Vermittler – er ruft die benötigten Informationen auf, sammelt die Beiträge der einzelnen Stationen und liefert ein fertiges Gericht.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

OpenSearch-Funktionen

OpenSearch bietet integrierte Funktionen für Suche, Analyse und Observability. Plugins und Erweiterungen erweitern den Funktionsumfang, sodass Teams die Plattform an spezielle Workloads anpassen können.

Kernfunktionen der Plattform

Volltextsuche und Relevanzbewertung: Unterstützt Phrasenabfragen, Relevanzoptimierung und Filter mit Apache Lucene.
Verteilte Indizierung und Abfrage: Speichert Daten über primäre und replizierende Shards hinweg und ermöglicht so parallele Indizierung und Abfragen mit geringer Latenz.
Aggregationen und analytische Abfragen: Fassen Sie Daten in Echtzeit zusammen und analysieren Sie sie zur Trenderkennung und Betriebsüberwachung.
SQL-Abfragesyntax: Fragt indizierte Daten mithilfe bekannter Konstrukte der Structured Query Language (SQL) ab und gibt Ergebnisse im JSON- oder Tabellenformat zurück.
Piped Processing Language (PPL): Eine Syntax im Pipeline-Stil zur Erkundung von Protokollen, Metriken und anderen operativen Datensätzen.
Index State Management (ISM): Automatisiert Indexlebenszyklusvorgänge wie Rollover und Aufbewahrung.
Data Prepper (Aufnahme-Pipelines): Filtert, reichert an und transformiert Daten vor der Indexierung aus Gründen der Observability und Sicherheit.
Dashboards und Visualisierung: Erstellt Visualisierungen, Bedienfelder und Berichte aus Protokollen, Metriken und Traces.
Authentifizierung und Zugriffskontrolle: Bietet granulare Zugriffskontrolle über Indizes, Dokumente und Felder mit Unterstützung für Lightweight Directory Access Protocol (LDAP), Security Assertion Markup Language (SAML) und Active Directory.
Observability Primitive: Bietet integrierte Unterstützung für wichtige Observability-Daten, die zur Überwachung verteilter Systeme verwendet werden.

Plugin-basierte Funktionen

Obwohl nicht vollständig, ermöglichen diese beliebten Erweiterungen Analyse, maschinelles Lernen (ML) und Observability-Szenarien:

Erkennung von Anomalien: Erkennt ungewöhnliche Muster in Protokollen und Metriken mithilfe des Random Cut Forest-Algorithmus.
k-NN und Vektorsuche: Unterstützt semantische Suche und Ähnlichkeitssuche sowie Empfehlungsworkloads unter Verwendung von approximativen Techniken des nächstgelegenen Nachbarn (k-NN).
ML Commons: Führt maschinelle Lernmodelle direkt in OpenSearch aus und unterstützt Training und Inferenz.
Leistungsanalysator: Bietet detaillierte Ressourcen- und Leistungskennzahlen über Cluster hinweg und hilft Teams, CPU- und Abfragedurchsatz zu optimieren.
Clusterübergreifende Replikation: Repliziert Indizes über Cluster hinweg, um Notfallwiederherstellung, Redundanz und Workload-Isolation zu unterstützen.
Trace Analytics: Visualisiert Ablaufverfolgungen von verteilten Systemen und hilft Teams, Serviceabhängigkeiten und Latenzpfade zu verstehen.

Unternehmen, die eine verwaltete Erfahrung bevorzugen, können auch den Amazon OpenSearch Service nutzen, der Skalierung, Backups, Knotenaustausch und Wartung für OpenSearch-Cluster auf AWS automatisiert.

Was sind OpenSearch-Dashboards?

OpenSearch Dashboards ist die Visualisierungs- und Analyseoberfläche für OpenSearch. Es bietet eine interaktive Umgebung zum Erkunden von indexierten Daten, zum Erstellen von Visualisierungen und zur Erstellung von operativen Dashboards, die in Observability, Sicherheitsanalyse und Anwendungs-Workflows verwendet werden. So können Teams beispielsweise Dashboards nutzen, um Trends in Metriken zu visualisieren und Anomalien nahezu in Echtzeit zu untersuchen.

OpenSearch Dashboards unterstützt die Erstellung von Diagrammen, Tabellen, Karten, Notizbüchern und benutzerdefinierten Panels. Es enthält auch Funktionen zur Optimierung der Analyse. Notizbücher ermöglichen es den Nutzern, Visualisierungen und Text zu einer einzigen Erzählung zu kombinieren, während operative Panels Observability-Visualisierungen, die mit der Piped Processing Language erstellt wurden, in eine einheitliche Darstellung organisieren.

Da OpenSearch Dashboards die gleiche Benutzeroberfläche (UI) wie Kibana besitzt, empfinden viele Datenteams den Workflow als vertraut. Es wurde jedoch im Rahmen seiner eigenen Roadmap entwickelt und beinhaltet Funktionen, die den breiteren OpenSearch-Funktionsumfang widerspiegeln.

OpenSearch-Anwendungsfall

OpenSearch unterstützt eine Vielzahl von Anwendungsfällen in verschiedenen Branchen, darunter:

Log-Analyse und Betriebsinformationen
Observability-Workflows
Sicherheitsanalyse und Bedrohungserkennung
Suchmaschinenanwendungen
Datenvisualisierung und Berichterstellung
Maschinelles Lernen – verbesserte Analyse

Log-Analyse und operative Intelligenz

Teams indizieren Protokolle von Anwendungen, Infrastruktur und Cloud-Services, um Leistungsprobleme zu analysieren und Ausfälle zu beheben. OpenSearch unterstützt die Aufnahme großer Datenmengen und Echtzeitanalysen, wodurch es sich für verteilte Produktionssysteme wie beispielsweise multinationale E-Commerce-Websites eignet.

Observability-Workflows

Mit Unterstützung für Metriken, Protokolle und Traces bietet OpenSearch eine integrierte Observability-Plattform. Trace Analytics visualisiert Service-Interaktionen, während Anwendungsanalysen Telemetrie korrelieren, um Systemverhalten zu verstehen und Latenz oder Ausfälle genau zu bestimmen. Dashboards und PPL-Abfragen ermöglichen es Teams, Probleme schnell zu untersuchen und wiederverwendbare operative Ansichten zu erstellen.

Security Analyse und Bedrohungserkennung

Die Erkennung von Anomalien und die ML-Algorithmen von OpenSearch ermöglichen Unternehmen, Such- und Analyse-Techniken in allen Sicherheitsabläufen anzuwenden. Teams nutzen es, um ungewöhnliche Muster in Authentifizierungsprotokollen oder Anwendungsverhalten zu erkennen sowie Benachrichtigungen auszulösen, wenn Bedingungen oder Schwellenwerte erfüllt sind.

Suchmaschinenanwendungen

Organisationen nutzen OpenSearch als Suchmaschine hinter Websites, Produktkatalogen und Unternehmensinhaltssystemen. Volltextsuche, Autovervollständigung, Phrasenabgleichen und Vektorsuche unterstützen eine Vielzahl von Anwendungsfällen für Nutzererfahrung und Empfehlungen.

Datenvisualisierung und Berichterstellung

OpenSearch Dashboards bietet interaktive Visualisierungen, Berichte und Notizbücher, die Teams dabei helfen, Daten zu erkunden, Trends zu überwachen, KPIs zu verfolgen und Erkenntnisse mit Stakeholdern zu teilen.

Maschinelles Lernen – verbesserte Analyse

Mit ML Commons können Teams modellgesteuerte Operationen innerhalb von OpenSearch ausführen, wie Cluster, Klassifikation und Forecasting. Diese Funktionen unterstützen Anwendungsfälle wie Betrugserkennung, Nachfragevorhersage, Kundensegmentierung und Anreicherung von nachgelagerten Datenpipelines.

Autoren

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor