Una lista de verificación de 11 puntos para establecer y cumplir con los SLA de datos (con una plantilla de SLA)

Nos aventuramos a decir que ningún equipo es demasiado pequeño para proponer y comprometerse con un acuerdo de nivel de servicio de datos o SLA de datos. ¿Qué es un SLA de datos? Es una promesa pública de ofrecer un nivel de servicio cuantificable. Al igual que sus proveedores de infraestructura como servicio (IaaS) se comprometen a un tiempo de actividad del 99.99 %, usted se compromete a proporcionar datos de cierta calidad, dentro de ciertos parámetros.

Es importante que el compromiso sea público. (Dentro de la empresa, al menos). La publicidad crea una mejor responsabilidad, le ayuda a alinear a todos los equipos en torno a lo que es más importante y le permite construir una estructura que respalde la calidad.

En esta guía, exploramos cómo establecer su propio SLA de datos.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Los SLA de datos reducen los desacuerdos y crean claridad

Los SLA de datos formalizados y escritos hacen que sus compromisos informales sean concretos y mutuamente aceptables. Cada relación de datos implica compromisos informales, ya sea que los establezca o no, y muy a menudo, dos partes pueden ponerse de acuerdo en algo sin darse cuenta de que están hablando de cosas diferentes.

Por ejemplo, “Dentro de un plazo razonable” tiene significados muy diferentes para cada departamento, o incluso para cada persona. Para algunos, significa una semana. Para otros, es una cuarta parte. Para los vendedores, es antes de su próxima reunión con el cliente.

Los compromisos informales tienden a ser tan fuertes como la memoria de cada persona. No es raro que un equipo de ingeniería de datos se comprometa informalmente a entregar datos en unas pocas semanas, y que los "consumidores" internos posteriores simplemente digan: "Gracias". Pero luego, una semana después, esos consumidores exigen saber dónde están los datos, dado que están a punto de ingresar a una reunión ejecutiva. Es en esos momentos que usted se da cuenta de que tenían expectativas no expresadas que habría sido útil documentar.

Y si los acuerdos son meramente verbales, pueden tergiversarse y transformarse cuando algo sale mal. Si un ejecutivo exige algo de uno de sus consumidores de datos, su emergencia se convierte en la de usted. Lo necesitan ahora. O si un prospecto exige ver un conjunto de datos de muestra, de repente los vendedores creerán que usted debería responder a las solicitudes el mismo día.

Los SLA de datos formales pueden ayudar con todo eso. Le ayudan a explicar a los demás cómo trabaja para lograr su propósito final: la confianza en los datos. Desea que todos en la organización confíen en usted y, por extensión, en los datos.

 
Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Una plantilla de acuerdo de nivel de servicio de datos

Entonces, ¿qué es exactamente el SLA de datos? Es un documento escrito simple, generalmente de 250 a 500 palabras, publicado en un espacio compartido, como un wiki de la empresa o Google Doc. Debe incluir 6 elementos:

  • Propósito: ¿Por qué existe este SLA de datos? ¿Qué problemas espera que resuelva y cómo espera que se utilice?
  • Promesa: ¿Qué promete a otros equipos?
  • Medición: ¿Cómo medirá el SLA de datos, quién lo medirá y cuál es el plazo del SLA?
  • Ramificaciones: ¿Qué sucede cuando no cumple con su SLA de datos? ¿Quién es responsable y qué tipo de correcciones están disponibles, si las hay?
  • Requisitos: ¿Qué espera a cambio? ¿Cómo son sus promesas condicionales?
  • Firmas: ¿Quién se compromete con el SLA de datos?

Al escribir su SLA de datos, transmítalo en la menor cantidad de palabras posible sin cambiar el significado. Esto requiere mucha edición, pero recomendamos escribirlo todo de manera integral y volver a editarlo más tarde. La razón es que, si mira la página demasiado tiempo, puede desarrollar lo que los escritores llaman "ansiedad de página en blanco" y seguir posponiéndola. Haga un borrador de mala calidad ahora, no espere.

Este es un ejemplo de acuerdo de nivel de servicio de datos:

SLA de ingeniería de datos de la empresa

El propósito de este documento es establecer una promesa pública de nuestro equipo a otros para mantener una alta calidad de los datos dentro de parámetros precisos. Esperamos que genere comprensión, nos ayude a todos a trabajar juntos y mantenga a nuestros equipos mutuamente responsables.

Nuestra promesa: Entregaremos datos de ventas con una puntuación de calidad de datos de al menos 95 % a las 5:00 a. m. ET todos los días para que el equipo pueda responder preguntas como "¿Cuáles fueron las ventas ayer?" Acusaremos recibo de todas las solicitudes en el plazo de 1 día hábil y las clasificaremos por tickets simples y complejos. Resolveremos las solicitudes simples en un plazo de tres días hábiles y las complejas en un plazo de 2 semanas.

Mediremos la calidad de los datos comparando los KPI de entrega de datos, como el tiempo de inicio de la ejecución y el tiempo de finalización de la ejecución, el recuento de registros y la proporción de nulos a registros, y las puntuaciones de distribución y desviación con los estándares predefinidos de actualización de datos, integridad de datos y fidelidad de datos.

Si no cumplimos con un SLA de datos, en un plazo de tres días hábiles, nuestro equipo publicará una disculpa pública atribuyéndose el mérito, explicando por qué sucedió y las medidas precisas que estamos implementando para solucionarlo.

Para cumplir con esta promesa, necesitamos su ayuda. Nuestro equipo necesita instrucciones oportunas, entrada y feedback claros sobre cómo se utilizan los datos, así como un aviso de al menos cuatro semanas sobre cualquier cambio complejo solicitado.

Dirija todas las preguntas, comentarios e inquietudes a data-eng@team.com.

Con determinación,

– Su equipo de ingeniería de datos

Once estrategias para cumplir con su SLA de datos

Con su SLA establecido (o tal vez mientras lo edita), comience a pensar en todas las cosas que necesita implementar antes de poder cumplirlo.

Por ejemplo:

1. Definir qué significa "buenos datos"

Trate de eliminar la mayor ambigüedad posible de esta frase. Defínalo en términos concretos e inequívocos. Tal como lo vemos, hay cuatro características que puede utilizar para definir datos de alta calidad. Una vez definido, asegure el acuerdo de otros equipos sobre esa definición.

Pregúntese:

  • ¿Cuál es el resultado de buenos datos para el negocio?
  • ¿Qué características únicas definen los buenos datos?
  • ¿Qué características definen los datos incorrectos?

2. Rastree si los datos están disponibles

Para el seguimiento, necesitará una herramienta de observabilidad para saber si partes de su pipeline están inactivas. Sin uno, es bastante difícil medir si falta un SLA, y mucho menos diagnosticar la causa principal. También le ayudará a comprender los errores para que pueda arreglar las cosas mucho más rápido.

Puedes tratar tu SLA de datos como una métrica de estrella polar: un punto de referencia que guíe a todos. Pero dentro de él, por supuesto, hay mucha complejidad oculta, y deberá realizar un seguimiento de una canasta de KPI para saber qué está sucediendo en sentido ascendente y descendente.

Estas son algunas recomendaciones específicas:

  1. Establezca pruebas automáticas para monitorear la calidad de los datos en sus cuatro dimensiones
    • Pruebe la preproducción de datos
    • Realice pruebas en cada etapa: integridad, anomalías
  2. Mida qué tan bien descubre, responde y se dirige a los problemas
    • Tiempo de descubrimiento
    • Tiempo de resolución
    • Incidentes por activo
  3. Documente las causas próximas y la causa principal de cada problema
    • El socio de datos no realizó una entrega
    • Tiempo de espera
    • Trabajo atascado en una cola
    • Transformación inesperada
    • Problema de permiso
    • Error de tiempo de ejecución
    • Cambios de programación

3. Identifique la infraestructura que necesitará agregar

Tenga cuidado con lo que se compromete. No puede estar en todas partes y prepararse para todo, y un SLA de 99.999 % de tiempo de actividad significa que solo puede tener 5 minutos de tiempo de inactividad cada año. Para cumplir con eso, probablemente necesite más personal, más visibilidad, más redundancias y personas que trabajen las 24 horas.

4. Implemente el seguimiento y la generación de informes de problemas

Probablemente necesite una herramienta de tickets como Jira o ServiceNow. Esto permite a los usuarios de datos crear tickets, a su equipo rastrearlos y a usted comprender la naturaleza de esos tickets para que pueda encontrar arreglos a largo plazo e identificar áreas problemáticas.

5. Definir los propietarios de los datos

Es posible que no desee especificarlo en su documento de SLA de datos públicos, pero defina los propietarios de la fuente de datos y la canalización. Son los responsables en última instancia si algo sale mal. Especifique también qué sucede si se van de vacaciones o dejan la empresa.

6. Configure alertas

Configure alertas para publicar en la aplicación de mensajería de su equipo, como Slack, o en un sistema de gestión de incidentes como PagerDuty. Cuantos más detalles del incidente pueda incluir en esa alerta, más rápido podrá diagnosticar. Estas alertas le indicarán con anticipación a quién más deberá incorporar o dónde comenzar su análisis. (IBM® Databand puede enviar estas alertas, y adjunta insights útiles y contexto).

7. Publique un plan de respuesta a incidentes del equipo

Supongamos que un consumidor de datos le dice que una tabla está rota en su panel. ¿Cómo confirma y responde? Escríbalo para que cuando ocurra un incidente, no se encuentre con el problema del espectador, donde todos asumen que alguien más lo manejará y luego nadie actúa.

Dependiendo del tamaño de su equipo y de cómo esté distribuido en todo el mundo, es posible que desee tomar esto muy en serio y nombrar lo que los servicios de emergencia llaman un comandante de incidentes. Esa persona se convierte en el director ejecutivo (CEO) del incidente y dirige a todos los demás. (Esto garantiza una respuesta coordinada y le ayuda a evitar que varias personas aborden el mismo problema).

8. Comunique los problemas con alertas en la aplicación

Si puede, cree paneles de alerta en los paneles de las personas para poder comunicar el estado del sistema. Si algo sale mal, puede escribir: "Estamos teniendo una interrupción; este es nuestro tiempo estimado de resolución". Esto difundirá las alertas repetidas de todos sus consumidores de datos y lo liberará para responder realmente.

Si no puede crear paneles de alerta, al menos, designe a una persona clave en cada equipo a quien pueda informar, quien luego informará a todos los demás.

9. Supervise y actualice

Supervise cómo sus consumidores de datos están usando los datos (y si los están usando). Realice encuestas ocasionales, formales o informales, para medir su confianza en esos datos e invitar a sugerencias. Para los consumidores interesados, comunique lo que hay en su hoja de ruta.

10. Realice un mantenimiento periódico

Establezca períodos de mantenimiento periódicos en los que su equipo revise por qué se rompieron las cosas y haga una lluvia de ideas para solucionarlo. Pregunte por qué fueron posibles esos problemas, realice un análisis posterior sin culpar a nadie, documente sus conclusiones, asigne los arreglos y supervise cómo funcionaron.

11. Publique su SLA de datos

Con todo eso resuelto, está listo para editar y revisar su SLA de datos. Publíquelo públicamente en el wiki de su empresa o en algún lugar compartido, asegure el compromiso de todos y respételo.

Cumplir con sus SLA de datos

Los SLA de datos le ayudan a usted y a su equipo a ser honestos. Si bien están redactados como una promesa pública a otros, en realidad son un acuerdo bilateral: usted acepta proporcionar datos dentro de parámetros específicos, pero a cambio, necesita la participación de las personas y su comprensión.

Muchas cosas pueden salir mal en la ingeniería de datos y muchas de ellas tienen que ver con la falta de comunicación. Documentar su SLA contribuye en gran medida a aclararlo todo, para que pueda lograr su objetivo final: infundir una mayor confianza en los datos dentro de su organización.

Comience a detectar los problemas de estado de los datos a tiempo y deje de perder dinero en los incumplimientos de los SLA de datos. Descubra cómo puede capacitar a sus ingenieros con alertas avanzadas y detección de anomalías para eliminar los problemas de calidad de raíz. Si está listo para profundizar, reserve una demostración hoy mismo.