989 lecturas
989 lecturas

¿Qué es Open Metadata?

por Shawn Gordon6m2025/05/21
Read on Terminal Reader

Demasiado Largo; Para Leer

OpenMetadata es una plataforma de código abierto diseñada para simplificar la gestión de metadatos. Se inspiró en las lecciones de la infraestructura de metadatos de Uber. proporciona un repositorio centralizado de metadatos, lo que permite el descubrimiento de datos, el seguimiento de lineajes, el seguimiento de la calidad y la colaboración en equipo.
featured image - ¿Qué es Open Metadata?
Shawn Gordon HackerNoon profile picture

Introduction

Introducción

En mis últimos trabajos, he estado mirandoEl iceberg de Apache, deApache Kafka, yApache muy buenoEsto me llevó a pensar en lo que podría ser una extensión útil en ese espacio para mirar, lo que me llevó a pensar en navegar por las complejidades de los ecosistemas de datos modernos.OpenMetadata, una plataforma de código abierto diseñada para simplificar la gestión de metadatos, ofreciendo una robusta solución de descubrimiento de datos, observabilidad y gobernanza. En este post de blog, nos sumergiremos en las bases técnicas de OpenMetadata, exploraremos su arquitectura, características clave y casos de uso, y proporcionaremos herramientas visuales para ayudarle a entender por qué está ganando atracción en la comunidad de ingeniería de datos.

El iceberg de ApacheApache KafkaApache muy buenoOpenMetadata

What is OpenMetadata?

¿Qué es OpenMetadata?

OpenMetadata es una plataforma unificada de metadatos de código abierto que permite a las organizaciones gestionar sus activos de datos de manera eficiente. Lanzado en 2021 e inspirado en las lecciones de la infraestructura de metadatos de Uber, ofrece un repositorio centralizado de metadatos, permitiendo el descubrimiento de datos, el seguimiento de lineajes, el seguimiento de la calidad y la colaboración en equipo. Con más de 300 colaboradores y adopción en diversas industrias, OpenMetadata se destaca por su simplicidad, extensibilidad y vibrante comunidad.

A diferencia de las herramientas tradicionales de metadatos que se basan en bases de datos complejas de gráficos o sistemas propietarios, OpenMetadata adopta una arquitectura simplificada con un enfoque de esquema primero. Soporta más de 90 conectores para la ingestión de metadatos de bases de datos, almacenes de datos, tuberías y dashboards, lo que lo convierte en una elección versátil para las pilas de datos modernas.

OMD Architecture Diagram
Why OpenMetadata Matters

OMD Architecture Diagram
Por qué son importantes los OpenMetadata

La lectura de una base de datos y la producción de un informe fue bastante sencilla en los viejos días. Hiciste algunas juntas, algunas filtraciones, algunas formataciones, y estallaste. Ahora tienes tuberías complejas que atrapan datos de diferentes fuentes y tipos. Cuando, no si, algo va al sur con los resultados, no es fácil rastrear dónde se ha ido mal, y aquí es donde entra OpenMetadata. Es un activo crítico para comprender la línea de datos, asegurar la calidad y permitir la colaboración, abordando varios puntos dolorosos:


  • Fuentes de datos fragmentadas: Las organizaciones a menudo utilizan múltiples herramientas (por ejemplo, Snowflake, dbt, Metabase), lo que conduce a metadatos siloados.
  • Descubrimiento de datos: La búsqueda de activos de datos relevantes puede ser demorada. Las capacidades de búsqueda de OpenMetadata y el enriquecimiento de metadatos hacen que el descubrimiento sea intuitivo.
  • Gobernanza y cumplimiento: OpenMetadata admite una gobernanza robusta sin esfuerzo manual excesivo a través de funciones como la versión de metadatos y los flujos de trabajo automatizados.
  • Escalabilidad: Su arquitectura ligera y extenso soporte de conector se adaptan a las empresas de todos los tamaños.

Architecture of OpenMetadata

Arquitectura de OpenMetadata

Basado en el tiempo que pasé, parece que OpenMetadata se compone de cuatro componentes principales:

  1. Metadata Store: Un repositorio central que almacena el gráfico de metadatos, los activos de datos de conexión, los usuarios y los metadatos generados por herramientas. utiliza una base de datos relacional (por ejemplo, MySQL, Postgres) para almacenamiento, evitando la complejidad de las bases de datos de gráficos como Neo4j.
  2. Ingestion Framework: Un framework plugable que ingiere metadatos de más de 90 fuentes, incluyendo bases de datos (por ejemplo, BigQuery, Snowflake), lagos de datos (por ejemplo, S3, Iceberg), y herramientas de BI (por ejemplo, Power BI).
  3. Esquemas de metadatos: Esquemas basados en JSON definen entidades de metadatos (por ejemplo, tablas, dashboards) y relaciones. Estos esquemas son extensibles, permitiendo a las organizaciones adaptar los metadatos a sus necesidades.
  4. Interfaz de usuario: Una interfaz de usuario basada en la web construida con React, que ofrece herramientas de búsqueda, visualización de lineajes y colaboración. Se integra con Elasticsearch para la búsqueda de texto completo y soporta los cortometrajes CMD + K para una navegación rápida.

Por ejemplo, la configuración de un entorno local tarda minutos y la plataforma soporta las implementaciones en la nube en AWS, Azure y Google Cloud.

Características clave

OpenMetadata ofrece un rico conjunto de características que, basado en mi experiencia en el espacio, realmente cubren lo que las personas necesitan / quieren hacer.


  1. Data Discovery

    The full-text search engine, powered by Elasticsearch, indexes entity names, descriptions, tags, and even conversation threads. Users can refine searches with filters or use advanced queries to explore tables, dashboards, pipelines, and more.


  2. Data Lineage

    Lineage tracking provides column-level visibility into data flows across pipelines and tools. For example, you can trace how data moves from a PostgreSQL table through a dbt transformation to a Power BI dashboard. Lineage can be exported as PNG or PDF for documentation.


  3. Data Quality and Profiling

    Includes no-code data quality tests and profiling tools. Users can define test suites, monitor data health, and view results in an interactive dashboard. AutoPilot, an AI-driven feature, automates metadata extraction and profiling for new services, reducing onboarding time.


  4. Collaboration

    The platform fosters collaboration through conversation threads, task creation, and event notifications. Data producers and consumers can communicate directly on data assets, reducing silos.


  5. Governance

    Supports metadata versioning, tagging, and ownership assignment, enabling compliance with data governance policies. Its two-way metadata synchronization pushes enriched metadata (e.g., tags) back to source systems like Snowflake, ensuring consistency.


  6. Extensibility The schema-first approach and REST APIs allow developers to extend metadata entities and integrate with custom tools. The ingestion framework supports community-contributed connectors, ensuring flexibility.

Use Cases

Uso de casos

El diseño flexible hace que sea aplicable en muchas industrias.Aquí hay algunos escenarios a considerar:

  • Centralización de datos: Una empresa minorista utiliza OpenMetadata para consolidar metadatos de Snowflake, dbt y Metabase, proporcionando una única fuente de verdad para los equipos de análisis.
  • Automatización de la gobernanza: Una institución financiera utiliza AutoPilot para automatizar el etiquetado de metadatos y hacer cumplir las políticas de enmascaramiento de datos en BigQuery, asegurando el cumplimiento del GDPR.
  • Descubrimiento de datos para la IA: Un proveedor de SaaS utiliza OpenMetadata para estandarizar metadatos para diversos conjuntos de datos de clientes, permitiendo la integración sin problemas en las tuberías de modelos de IA.

Collaboration Across Teams: Una plataforma de comercio electrónico utiliza las herramientas de colaboración de OpenMetadata para cerrar las brechas entre analistas de negocios e ingenieros de datos, mejorando la eficiencia de la creación de dashboards.

Getting Started

Empezando a

Hay varias maneras de comenzar con OpenMetadata, y las opciones están claramente descritasAquíNo quiero replicarlos en este blog, porque pueden cambiar con el tiempo.Lo que no debería cambiar, sin embargo, es la dirección de la interfaz de usuario, así que:

Aquí
  • Acceso a la interfaz de usuario: Navega a http://localhost:8585 para acceder a la interfaz web.
  • Configure Connectors: Conecte a sus fuentes de datos usando el marco de ingestión. Como he dicho varias veces, hay más de 90 para elegir en el momento de esta escritura. La documentación proporciona guías paso a paso para herramientas populares.

Screenshot of connectors


Puede evitar el paso de instalación y probar la Sandbox de OpenMetadata enen sandbox.open-metadata.orgLa comunidadSlackEl canal también es un excelente recurso para el soporte y las discusiones de características.

Slack

Challenges and Considerations

Retos y consideraciones

Aunque OpenMetadata es potente, tiene limitaciones. Para las arquitecturas modernas de lagos de datos (por ejemplo, Delta Lake), la funcionalidad del conector puede ser limitada, y los procesos de ingestión (por ejemplo, Athena) pueden incurrir en costes si no se optimizan, por lo que no simplemente apunte ciegamente a un lago de datos masivo y apague.

Summary

Resumen

OpenMetadata es un proyecto de código abierto que proporciona una solución unificada de gestión de metadatos. Su arquitectura ligera, extenso soporte de conectores y foco en la colaboración lo convierten en una elección convincente para las pilas de datos modernas. Al centralizar metadatos, mejorar la descubribilidad y automatizar la gobernanza, OpenMetadata permite a las organizaciones desbloquear el pleno potencial de sus activos de datos. Ya sea que esté construyendo una cultura basada en datos o abordando los desafíos de cumplimiento, OpenMetadata vale la pena explorar.

¿Quieres leer más en mi “¿Qué es el Heck?” serie? una lista útil está abajo:

  • ¿Qué es el DuckDB?
  • ¿Qué es el Heck Malloy?
  • ¿Qué es el Heck PRQL?
  • ¿Qué es GlareDB?
  • ¿Qué es el Heck SeaTunnel?
  • ¿Qué es LanceDB?
  • ¿Qué es el SDF?
  • ¿Qué es el Heck Paimon?
  • ¿Qué es el Heck Proton?
  • ¿Qué es el PuppyGraph?
  • ¿Qué es GPTScript?
  • ¿Qué es WarpStream?
  • ** ¿Qué es DeltaStream? **
¿Qué es el DuckDB?¿Qué es el DuckDB?¿Qué es el Heck Malloy?¿Qué es el Heck Malloy?¿Qué es el Heck PRQL?¿Qué es el Heck PRQL?¿Qué es GlareDB?¿Qué es GlareDB?¿Qué es el Heck SeaTunnel?¿Qué es el Heck SeaTunnel?¿Qué es LanceDB?¿Qué es LanceDB?¿Qué es el SDF?¿Qué es el SDF?¿Qué es el Heck Paimon?¿Qué es el Heck Paimon?¿Qué es el Heck Proton?¿Qué es el Heck Proton?¿Qué es el PuppyGraph?¿Qué es el PuppyGraph?¿Qué es GPTScript?¿Qué es GPTScript?¿Qué es WarpStream?¿Qué es WarpStream?¿Qué es DeltaStream?


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks