Descripción general de la supervisión de OpenTelemetry Kafka

El monitoreo de Kafka proporciona visibilidad en tiempo real de sus clústeres de Apache Kafka para garantizar una transmisión de datos confiable y evitar costosos tiempos de inactividad en sistemas distribuidos. Al usar un enfoque basado en recopiladores, obtiene un monitoreo integral a través de una solución flexible e independiente del proveedor que funciona en entornos autohospedados y Kubernetes con Strimzi.

Opciones del colector

New Relic admite dos distribuciones de OpenTelemetry Collector para el monitoreo de Kafka, y ambas ofrecen una funcionalidad idéntica con los mismos archivos de configuración y capacidades de monitoreo.

NRDOT Collector (recomendado): La distribución de New Relic de OpenTelemetry Collector con soporte de New Relic para asistencia. Para obtener más información, consulta el repositorio de GitHub de NRDOT Collector.
OpenTelemetry Collector: La distribución de la comunidad upstream. Para obtener más información, consulte el repositorio de GitHub de OpenTelemetry Collector Contrib.

Seleccione el colector que mejor se adapte a sus requisitos operativos y de soporte, luego proceda a configurar el monitoreo para su entorno.

Dashboard showing Kafka cluster health, network throughput, active brokers, topics, partitions, and consumer groups

Supervise sus clústeres de Kafka con dashboards integrales que muestran el estado del clúster, el estado del broker, las métricas de los temas y el rendimiento del grupo de consumidores.

¿Por qué supervisar Kafka?

Evite interrupciones: reciba alertas sobre fallas de intermediarios, particiones con poca replicación y temas fuera de línea antes de que causen tiempo de inactividad
Optimice el rendimiento: identifique el retraso del consumidor, los productores lentos y los cuellos de botella de la red que afectan la velocidad de procesamiento de datos
Planifique la capacidad: realice un seguimiento del uso de recursos, las tasas de mensajes y los recuentos de conexiones para escalar de forma proactiva
Asegure la integridad de los datos: supervise el estado de la replicación y el equilibrio de la partición para evitar la pérdida de datos

Caso de uso común

Ya sea que esté transmitiendo transacciones financieras, procesando datos de sensores de IoT o manejando la comunicación de microservicios, la supervisión de Kafka lo ayuda a detectar problemas antes de que afecten a su negocio. Reciba alertas cuando los picos de retraso del consumidor amenacen los dashboards en tiempo real, cuando las fallas del broker pongan en riesgo la pérdida de datos o cuando los cuellos de botella de la red ralenticen las tuberías de datos críticas. Esta supervisión es esencial para plataformas de comercio electrónico, sistemas de análisis en tiempo real y cualquier aplicación donde los retrasos o fallas en la entrega de mensajes puedan afectar la experiencia del usuario o las operaciones comerciales.

Empezar

Elija su entorno Kafka para comenzar a monitorear. Cada guía de configuración incluye requisitos previos, pasos de configuración y consejos para la solución de problemas.

Self-hosted Kafka

Kubernetes (Strimzi)

Cómo funciona

El monitoreo de Kafka funciona desplegando un colector junto a su clúster de Kafka para recopilar continuamente datos de rendimiento. El recopilador utiliza múltiples componentes especializados para capturar métricas integrales de diferentes partes de su infraestructura de Kafka.

Recopilación de datos:

Receptor de métricas de Kafka: Se conecta al puerto bootstrap de Kafka para la salud del clúster, el retraso del consumidor, las métricas de los temas y el estado de las particiones
Recopilación de métricas JMX (rendimiento del broker, datos de la JVM e información operativa):
- Kafka autohospedado: El Agente Java de OpenTelemetry con configuración JMX personalizada se ejecuta como un agente Java adjunto a los brokers de Kafka, enviando métricas a través de OTLP al receptor OTLPdel recopilador
- Kubernetes (Strimzi): El Prometheus JMX Exporter con configuración personalizada de New Relic expone métricas en el puerto 9404, recopiladas por el receptor Prometheusdel recopilador

Lo que obtiene: Las métricas clave incluyen retraso del consumidor, salud del broker, tasas de solicitudes, rendimiento de red, estado de replicación de particiones, utilización de recursos y datos de rendimiento de la JVM.

Para obtener nombres de métricas, descripciones y recomendaciones de alertas completas, consulte la referencia de métricas de Kafka.

Opcional: Añadir la supervisión a nivel de aplicación

La configuración de supervisión anterior rastrea el estado y el rendimiento de tu clúster de Kafka. Para obtener una imagen completa de cómo fluyen los datos a través de su sistema, también puede supervisar las aplicaciones que envían y reciben mensajes de Kafka.

La supervisión de la aplicación añade:

Latencias de solicitud desde sus aplicaciones a Kafka
Métricas de rendimiento a nivel de aplicación
Tasas de error y rastreos distribuidos
Visibilidad completa de productores → brokers → consumidores

Configuración rápida: Use el Agente Java de OpenTelemetry para la instrumentación de Kafka sin código. Para una configuración avanzada, consulte la documentación de instrumentación de Kafka.

Próximos pasos

¿Listo para comenzar a supervisar tus clústeres de Kafka?

Configurar la supervisión:

Kafka autohospedado - Monitorea Kafka que se ejecuta en máquinas físicas o virtuales
Kubernetes con Strimzi - Monitoree Kafka desplegado en Kubernetes

Después de la configuración:

Busca y consulta tus datos - Navega por la interfaz de usuario de New Relic y escribe consultas NRQL
Explorar las métricas de Kafka - Referencia completa de métricas con recomendaciones de alertas

Te ofrecemos esta traducción automática para facilitar la lectura.