Instale la integración de OpenTelemetry de Elasticsearch

Instale la integración de New Relic Elasticsearch OpenTelemetry para monitorear sus clústeres de Elasticsearch con protocolos estándar de la industria. Esta guía lo guiará a través de la configuración del OpenTelemetry Collector para recopilar métricas y logs de su infraestructura de Elasticsearch y enviarlos a New Relic.

Para instalar la integración, complete los siguientes pasos:

Antes de comenzar - Verifique los requisitos y prerrequisitos
Configurar el OpenTelemetry Collector - Configurar la recopilación de datos
Establecer variables de entorno - Configurar la autenticación
Encontrar y usar datos - Vea sus datos de Elasticsearch en New Relic
Configurar alertas - Configurar la supervisión proactiva

Paso 1: Antes de comenzar

Asegúrese de tener:

Privilegios de acceso requeridos - Privilegios de administrador del clúster de Elasticsearch y cuenta de New Relic con acceso
Versión 7.16 o superior de Elasticsearch - Esta integración requiere un clúster moderno de Elasticsearch
Supervisar o administrar los privilegios del clúster - Si la seguridad está habilitada, necesita el privilegio de supervisar o administrar el clúster. Consulte la documentación de privilegios de seguridad de Elasticsearch para obtener más detalles
Conectividad de red - Conectividad HTTPS saliente (puerto 443) al punto de ingestión OTLP de New Relic
OpenTelemetry Collector - Debe tener un OpenTelemetry Collector instalado y en ejecución en su host para monitorear Elasticsearch. Hay dos distribuciones compatibles:
- NRDOT (Recomendado): Siga la guía oficial de instalación de NRDOT para configurar el collector en su host.
- OTel Contrib: OpenTelemetry Collector Contrib instalado y ejecutándose en su host. Instale a través de un paquete oficial (.deb o .rpm) para garantizar que la unidad de servicio systemd se cree correctamente.
Valores de configuración listos - Necesitará dos valores clave para la configuración:
- Endpoint de Elasticsearch - Su URL real de Elasticsearch (reemplace https://localhost:9200)
- Nombre del clúster - Un nombre único para identificar su clúster en New Relic

Sugerencia

Recomendamos encarecidamente el uso de NRDOT (New Relic Distribution of OpenTelemetry) en lugar de la versión estándar de la comunidad. Como componente propiedad de New Relic, es:

Optimizado: Preconfigurado para el máximo rendimiento con el backend de New Relic.
Confiable: Probado exhaustivamente para la estabilidad y seguridad empresarial.
Con soporte: Totalmente respaldado por los equipos de soporte de New Relic para una resolución de problemas más rápida.

Paso 2: Configura el OpenTelemetry Collector

Para configurar la recolección de métricas y logs de su clúster de Elasticsearch, cree o actualice el archivo de configuración en /etc/nrdot-collector/config.yaml para NRDOT o /etc/otelcol-contrib/config.yaml para Collector Contrib.

La configuración varía según su configuración de Elasticsearch y los requisitos de monitoreo. Elija la configuración adecuada a continuación:

Comience aquí si tiene: Un clúster de Elasticsearch no seguro sin autenticación ni SSL.

Esta configuración recopila métricas completas de Elasticsearch y el sistema host sin autenticación:

Importante

Reemplace el valor endpoint con el endpoint de su clúster de Elasticsearch y actualice elasticsearch.cluster.name en el bloque del procesador con un nombre único para identificar de forma única su clúster en New Relic.

# =================================================================================================
# OpenTelemetry Collector Configuration for Elasticsearch and Host
# This configuration collects metrics and logs for a complete observability solution.
# =================================================================================================
# -------------------------------------------------------------------------------------------------
# Receivers
# Receivers define how data gets into the Collector. This config uses four receivers:
# - elasticsearch: to scrape metrics from the Elasticsearch API
# - hostmetrics: to collect system-level metrics from the host itself
# - filelog: to tail Elasticsearch log files
# -------------------------------------------------------------------------------------------------
receivers:
  elasticsearch:
    endpoint: "http://localhost:9200"
    collection_interval: 15s
    metrics:
      elasticsearch.os.cpu.usage:
        enabled: true
      elasticsearch.cluster.data_nodes:
        enabled: true
      elasticsearch.cluster.health:
        enabled: true
      elasticsearch.cluster.in_flight_fetch:
        enabled: true
      elasticsearch.cluster.nodes:
        enabled: true
      elasticsearch.cluster.pending_tasks:
        enabled: true
      elasticsearch.cluster.shards:
        enabled: true
      elasticsearch.cluster.state_update.time:
        enabled: true
      elasticsearch.index.documents:
        enabled: true
      elasticsearch.index.operations.merge.current:
        enabled: true
      elasticsearch.index.operations.time:
        enabled: true
      elasticsearch.node.cache.count:
        enabled: true
      elasticsearch.node.cache.evictions:
        enabled: true
      elasticsearch.node.cache.memory.usage:
        enabled: true
      elasticsearch.node.shards.size:
        enabled: true
      elasticsearch.node.cluster.io:
        enabled: true
      elasticsearch.node.documents:
        enabled: true
      elasticsearch.node.disk.io.read:
        enabled: true
      elasticsearch.node.disk.io.write:
        enabled: true
      elasticsearch.node.fs.disk.available:
        enabled: true
      elasticsearch.node.fs.disk.total:
        enabled: true
      elasticsearch.node.http.connections:
        enabled: true
      elasticsearch.node.ingest.documents.current:
        enabled: true
      elasticsearch.node.ingest.operations.failed:
        enabled: true
      elasticsearch.node.open_files:
        enabled: true
      elasticsearch.node.operations.completed:
        enabled: true
      elasticsearch.node.operations.current:
        enabled: true
      elasticsearch.node.operations.get.completed:
        enabled: true
      elasticsearch.node.operations.time:
        enabled: true
      elasticsearch.node.shards.reserved.size:
        enabled: true
      elasticsearch.index.shards.size:
        enabled: true
      elasticsearch.os.cpu.load_avg.1m:
        enabled: true
      elasticsearch.os.cpu.load_avg.5m:
        enabled: true
      elasticsearch.os.cpu.load_avg.15m:
        enabled: true
      elasticsearch.os.memory:
        enabled: true
      jvm.gc.collections.count:
        enabled: true
      jvm.gc.collections.elapsed:
        enabled: true
      jvm.memory.heap.max:
        enabled: true
      jvm.memory.heap.used:
        enabled: true
      jvm.memory.heap.utilization:
        enabled: true
      jvm.threads.count:
        enabled: true
      elasticsearch.index.segments.count:
        enabled: true
      elasticsearch.index.operations.completed:
        enabled: true
      elasticsearch.node.script.cache_evictions:
        enabled: false
      elasticsearch.node.cluster.connections:
        enabled: false
      elasticsearch.node.pipeline.ingest.documents.preprocessed:
        enabled: false
      elasticsearch.node.thread_pool.tasks.queued:
        enabled: false
      elasticsearch.cluster.published_states.full:
        enabled: false
      jvm.memory.pool.max:
        enabled: false
      elasticsearch.node.script.compilation_limit_triggered:
        enabled: false
      elasticsearch.node.shards.data_set.size:
        enabled: false
      elasticsearch.node.pipeline.ingest.documents.current:
        enabled: false
      elasticsearch.cluster.state_update.count:
        enabled: false
      elasticsearch.node.fs.disk.free:
        enabled: false
      jvm.memory.nonheap.used:
        enabled: false
      jvm.memory.pool.used:
        enabled: false
      elasticsearch.node.translog.size:
        enabled: false
      elasticsearch.node.thread_pool.threads:
        enabled: false
      elasticsearch.cluster.state_queue:
        enabled: false
      elasticsearch.node.translog.operations:
        enabled: false
      elasticsearch.memory.indexing_pressure:
        enabled: false
      elasticsearch.node.ingest.documents:
        enabled: false
      jvm.classes.loaded:
        enabled: false
      jvm.memory.heap.committed:
        enabled: false
      elasticsearch.breaker.memory.limit:
        enabled: false
      elasticsearch.indexing_pressure.memory.total.replica_rejections:
        enabled: false
      elasticsearch.breaker.memory.estimated:
        enabled: false
      elasticsearch.cluster.published_states.differences:
        enabled: false
      jvm.memory.nonheap.committed:
        enabled: false
      elasticsearch.node.translog.uncommitted.size:
        enabled: false
      elasticsearch.node.script.compilations:
        enabled: false
      elasticsearch.node.pipeline.ingest.operations.failed:
        enabled: false
      elasticsearch.indexing_pressure.memory.limit:
        enabled: false
      elasticsearch.breaker.tripped:
        enabled: false
      elasticsearch.indexing_pressure.memory.total.primary_rejections:
        enabled: false
      elasticsearch.node.thread_pool.tasks.finished:
        enabled: false
  hostmetrics:
    collection_interval: 60s # Recommended for cost savings and stability
    scrapers:
      cpu:
        metrics:
          # CPU Utilization and Time are the core metrics
          system.cpu.utilization: {enabled: true}
          system.cpu.time: {enabled: true}
      load:
        metrics:
          # Load Averages (used for system health dashboards)
          system.cpu.load_average.1m: {enabled: true}
          system.cpu.load_average.5m: {enabled: true}
          system.cpu.load_average.15m: {enabled: true}
      memory:
        metrics:
          # Memory Usage and Utilization
          system.memory.usage: {enabled: true}
          system.memory.utilization: {enabled: true}
      disk:
        metrics:
          # Disk I/O operations (throughput)
          system.disk.io: {enabled: true}
          system.disk.operations: {enabled: true}
      filesystem:
        metrics:
          # Filesystem usage (disk space capacity)
          system.filesystem.usage: {enabled: true}
          system.filesystem.utilization: {enabled: true} 
      network:
        # Since this was already working, keeping it simple is best.
        # But for completeness:
        metrics:
          system.network.io: {enabled: true}
          system.network.packets: {enabled: true}
      process:
           metrics:
             process.cpu.utilization:
               enabled: true
# -------------------------------------------------------------------------------------------------
# Processors
# -------------------------------------------------------------------------------------------------
processors:
  # used to prevent out of memory situations on the collector
  memory_limiter:
    check_interval: 60s
    limit_mib: ${env:NEW_RELIC_MEMORY_LIMIT_MIB:-100}
  cumulativetodelta: {}
  resource/cluster_name_override:
    attributes:
      # Use the actual cluster name defined in your Elasticsearch config
      - key: elasticsearch.cluster.name
        value: "<elasticsearch-cluster-name>" # <-- REPLACE THIS WITH A UNIQUE CLUSTER NAME TO UNIQUELY IDENTIFY YOUR CLUSTER IN NEW RELIC 
        action: upsert
  # This processor adds resource attributes to all telemetry data.
  # 'service.name' is crucial for creating an entity in New Relic.
  resourcedetection:
    detectors: [ system ]
    system:
      resource_attributes:
        host.name:
          enabled: true
        host.id:
          enabled: true
        os.type:
          enabled: true 
  # This processor batches data for more efficient sending.
  batch:
    timeout: 10s
    send_batch_size: 1024
  # 1. CARDINALITY REDUCTION: Drops volatile or redundant attributes
  attributes/cardinality_reduction:
    actions:
      # Filter out VOLATILE PROCESS IDS (High churn)
      - key: process.pid
        action: delete
      - key: process.parent_pid
        action: delete
  transform/metadata_nullify:
    # We use 'metric_statements' to run OTTL logic on the metric signal
    metric_statements:
      - context: metric  # <-- Targets the high-level Metric structure itself
        statements:
          # Sets the 'description' field to an empty string ("")
          - set(description, "")
          # Sets the 'unit' field to an empty string ("")
          - set(unit, "")      
exporters:
  # This exporter sends all data to New Relic via OTLP/HTTP.
  otlphttp:
    endpoint: ${env:NEWRELIC_OTLP_ENDPOINT}
    headers:
      api-key: ${env:NEWRELIC_LICENSE_KEY}
# -------------------------------------------------------------------------------------------------
# Service
# The service block defines the pipelines.
# -------------------------------------------------------------------------------------------------
service:
  pipelines:
    metrics/elasticsearch:
      receivers: [elasticsearch]
      processors: [memory_limiter, resourcedetection, resource/cluster_name_override, attributes/cardinality_reduction, cumulativetodelta, transform/metadata_nullify, batch]
      exporters: [otlphttp]
    metrics/host:
      receivers: [hostmetrics]
      processors: [memory_limiter, resourcedetection,batch]
      exporters: [otlphttp]

Use esto si tiene: Un clúster de Elasticsearch seguro con autenticación y/o certificados SSL.

Agregue las credenciales de autenticación y la configuración SSL a la configuración básica anterior:

receivers:
  elasticsearch:
    endpoint: "https://localhost:9200"
    username: "elastic"
    password: "your_password"
    tls:
      ca_file: "/etc/elasticsearch/certs/http_ca.crt"
      insecure_skip_verify: false
    collection_interval: 15s

Opcional: Incluya esto si desea enviar archivos de log de Elasticsearch a New Relic además de las métricas.

Agregue la configuración del receptor filelog para recopilar y reenviar logs de Elasticsearch. Asegúrese de que el usuario que ejecuta el servicio de recopilador (por ejemplo, nrdot-collector u otelcol-contrib) tenga acceso de lectura a sus archivos de logs de Elasticsearch.

Si ejecuta Elasticsearch en Linux (Host):

receivers:
  filelog:
    include:
      - /var/log/elasticsearch/elasticsearch.log #Replace with path of the elasticsearch log file.
      - /var/log/elasticsearch/*.log             #We can send multiple log files using regex.

Si ejecuta Elasticsearch en Docker:

receivers:
  filelog:
    include:
      - /var/lib/docker/containers/*/*.log       # Replace with the container log file path. 
    operators:
      - type: move
        from: attributes.log
        to: body

Agregar el receptor filelog en el pipeline de servicio:

service:
  pipelines:
    logs:
      receivers: [filelog]
      processors: [resource/cluster_name_override]
      exporters: [otlphttp]

Opcional: Incluya esto si desea etiquetar sus datos con atributos personalizados como entorno, equipo o región.

Use el procesador resource/static_override para agregar etiquetas de metadatos personalizadas a todas sus métricas:

processors:
  resource/static_override:
    attributes:
      - key: env
        value: "production"
        action: upsert
service:
  pipelines:
    metrics/elasticsearch:
      receivers: [elasticsearch]
      processors: [resourcedetection, resource/cluster_name_override, resource/static_override, attributes/cardinality_reduction, cumulativetodelta, transform/metadata_nullify, batch]
      exporters: [otlphttp]
    metrics/host:
      receivers: [hostmetrics]
      processors: [resourcedetection, resource/static_override, batch]
      exporters: [otlphttp]

Sugerencia

Correlacione APM con Elasticsearch: Para conectar su aplicación APM y el clúster de Elasticsearch, incluya el atributo de recurso es.cluster.name="your-cluster-name" en sus métricas de APM. Esto permite la visibilidad entre servicios y una solución de problemas más rápida dentro de New Relic.

Paso 3: Establecer variables de entorno

Agregue la siguiente configuración a /etc/systemd/system/nrdot-collector.service.d archivo, asegurándose de que las variables de entorno se coloquen bajo la sección [Service]:

bash

$[Service]
$Environment="NEW_RELIC_LICENSE_KEY=YOUR_LICENSE_KEY_HERE"
$Environment="OTEL_EXPORTER_OTLP_ENDPOINT=YOUR_OTLP_ENDPOINT"
$Environment="NEW_RELIC_MEMORY_LIMIT_MIB=COLLECTOR_MEMORY_LIMIT"

Para aplicar estos cambios, recargue el administrador de systemd y reinicie el colector:

bash

$sudo systemctl daemon-reload
$sudo systemctl restart nrdot-collector.service

Agregue la siguiente configuración a /etc/systemd/system/otelcol-contrib.service.d archivo, asegurándose de que las variables de entorno se coloquen bajo la sección [Service]:

bash

$[Service]
$Environment="NEW_RELIC_LICENSE_KEY=YOUR_LICENSE_KEY_HERE"
$Environment="OTEL_EXPORTER_OTLP_ENDPOINT=YOUR_OTLP_ENDPOINT"
$Environment="NEW_RELIC_MEMORY_LIMIT_MIB=COLLECTOR_MEMORY_LIMIT"

Para aplicar estos cambios, recargue el administrador de systemd y reinicie el colector:

bash

$sudo systemctl daemon-reload
$sudo systemctl restart otelcol-contrib.service

Paso 4: Vea sus datos de Elasticsearch

Una vez que el recopilador esté en ejecución y enviando datos, puede ver sus métricas de Elasticsearch en New Relic:

Vaya a one.newrelic.com > Integrations & Agents
Buscar Elasticsearch (OpenTelemetry)
En Dashboards, haga clic en Elasticsearch OpenTelemetry Dashboard
Seleccione su cuenta y haga clic en View dashboard

Debería ver dashboards que muestren el estado del clúster, las métricas de rendimiento y el uso de recursos.

Sugerencia

¿No ve datos? Puede tardar unos minutos en aparecer los datos. Si no ve métricas después de 10 minutos, consulte nuestra guía de solución de problemas.

Próximos pasos con sus datos:

Explorar métricas: Todas las métricas de Elasticsearch se almacenan como Metric tipos de eventos
Crear consultas personalizadas: Use NRQL para construir gráficos y dashboards personalizados
Configure alertas: Continúe con el Paso 5 para configurar el monitoreo proactivo

Paso 5: Configurar alertas

La monitorización proactiva con alertas le ayuda a detectar problemas antes de que afecten a sus usuarios. Para crear condiciones de alerta en New Relic:

Vaya a one.newrelic.com > Alerts > Alert Conditions.
Haga clic en Create condition.
Configure la alerta utilizando el Guided mode o el generador de consultas NRQL.

Las configuraciones de alerta a continuación se recomiendan para una supervisión robusta de Elasticsearch:

Alertas esenciales (Alta prioridad)

Estas alertas monitorean problemas críticos de salud del clúster que pueden causar pérdida de datos o interrupciones del servicio:

Nombre de la alerta	Fundamento del umbral (Condición de ejemplo)
Alerta de fragmentos no asignados	La métrica `elasticsearch.cluster.shards` (donde `state = 'unassigned'` ) está por encima de 0 durante al menos 5 minutos.
Alerta de nodos de datos en buen estado	La métrica `elasticsearch.cluster.data_nodes` está por debajo del recuento mínimo de nodos requeridos durante al menos 5 minutos.
Alerta de uso de memoria dinámica excesivo	El porcentaje de uso del montón (Usado/Máx.) es superior al 90% durante al menos 5 minutos.
Alerta de tareas pendientes	La métrica `elasticsearch.cluster.pending_tasks` está por encima de 5 durante al menos 5 minutos.

Alertas de supervisión adicionales

Estas alertas ayudan a monitorear el rendimiento y los problemas operativos:

Nombre de la alerta	Fundamento del umbral (Condición de ejemplo)
Alerta de tiempo de consulta lento	El percentil 95 de `elasticsearch.node.operations.time` es superior a 5 ms durante al menos 2 minutos.
Inicializando fragmentos durante demasiado tiempo	La métrica `elasticsearch.cluster.shards` (donde `state = 'initializing'` ) está por encima de 0 durante al menos 5 minutos.
Reubicando fragmentos durante demasiado tiempo	La métrica `elasticsearch.cluster.shards` (donde `state = 'relocating'` ) está por encima de 0 durante al menos 5 minutos.

Nombre de la alerta

Fundamento del umbral (Condición de ejemplo)

Alerta de tiempo de consulta lento

El percentil 95 de

elasticsearch.node.operations.time

es superior a 5 ms durante al menos 2 minutos.

Inicializando fragmentos durante demasiado tiempo

La métrica

elasticsearch.cluster.shards

(donde

state = 'initializing'

) está por encima de 0 durante al menos 5 minutos.

Reubicando fragmentos durante demasiado tiempo

La métrica

elasticsearch.cluster.shards

(donde

state = 'relocating'

) está por encima de 0 durante al menos 5 minutos.

Resolución de problemas

Si encuentra problemas durante la instalación o no ve datos en New Relic, consulte nuestra completa guía de solución de problemas para obtener soluciones paso a paso a los problemas comunes.

Te ofrecemos esta traducción automática para facilitar la lectura.

Instale la integración de OpenTelemetry de Elasticsearch

Paso 1: Antes de comenzar

Sugerencia

Paso 2: Configura el OpenTelemetry Collector

Configuración básica de métricas

Importante

Configuración de autenticación y SSL

Habilitar logs (receptor filelog)

Si ejecuta Elasticsearch en Linux (Host):

Si ejecuta Elasticsearch en Docker:

Agregar el receptor filelog en el pipeline de servicio:

Agregar metadatos personalizados

Sugerencia

Paso 3: Establecer variables de entorno

Paso 4: Vea sus datos de Elasticsearch

Sugerencia

Paso 5: Configurar alertas

Alertas esenciales (Alta prioridad)

Alertas de supervisión adicionales

Resolución de problemas

Te ofrecemos esta traducción automática para facilitar la lectura.

Instale la integración de OpenTelemetry de Elasticsearch

Paso 1: Antes de comenzar .css-21sua1{background:none;border:none;width:0;padding:0;}

Sugerencia

Paso 2: Configura el OpenTelemetry Collector

Configuración de autenticación y SSL

Habilitar logs (receptor filelog)

Agregar metadatos personalizados

Sugerencia

Paso 3: Establecer variables de entorno

Paso 4: Vea sus datos de Elasticsearch

Sugerencia

Paso 5: Configurar alertas

Alertas esenciales (Alta prioridad)

Alertas de supervisión adicionales

Resolución de problemas

Paso 1: Antes de comenzar