Data Profiling: Qué es?

En Data Testing tenemos que saber elegir nuestra Data para usar, no? Y cómo podemos hacerlo? Bueno... de esto vamos a hablar en este post!

Imaginen que tenemos decenas de bases de datos de las que obtenemos la información. Tenemos que tener una manera de examinar, analizar y crear informes de data de una manera organizada, eficiente y útil.


Generalmente se necesita el uso de herramientas con un toque visual para observar de forma más sencilla la ensalada interminable que pueden ser tantos sets de data. La idea de esto es poder exponer inconsistencias en los datos, la calidad de éstos digamos. Porque la calidad de los datos importa gente! Ohh sí, es algo que vengo aprendiendo cada vez más en estos últimos meses en los que me encuentro trabajando en Data Warehouses.


Cosas que no salgan bien formateadas, que no juegue bien con otros set datos... todo puede pasar. Es más, miren... hace no mucho fui testigo de un problema en producción cuando el nombre de una conocida franquicia de pizzas acá en Nueva Zelanda rompió todo por un apóstrofe en su nombre.


Todo esto a nivel negocio termina en malos entendidos, en no permitir a los usuarios tomar la decisión correcta y, en definitiva, perder plata.


Por qué se usa?

Hacer este análisis ayuda a descubrir y entender la data que estamos manejando. Y de ahí podemos entender también cómo se relacionan los datos entre ellos, entender otros requerimientos que quizás no tuvimos en vista, en fin... es útil como verán, para tener la big picture digamos de nuestra data.


Imaginen que hay datos que indican que data de mala calidad, puede costarle a los negocios hasta un 30% de sus ganancias. Mucha gracia no les causa perder plata...


Muchas veces el tema es que, en esta carrera loca por recolectar datos, se pierde de vista la calidad. No porque no se sepa que hay que hacerlo, sino que recolectar y generar datos termina llevándose todo el trabajo y no hay "tiempo" o "presupuesto" para poder hacer un data profiling.


Esto mejora la credibilidad de la data, propiedad MUY importante para el negocio porque, imaginen, que tomar decisiones sobre data que no es confiable no es muy saludable para un negocio. También ayuda a mejorar cualquier tipo de decisión y predicciones que podamos hacer sobre la data.


Los distintos tipos de data profiling.

gif

Como todo en esta vida en IT, tenemos distintos tipos de Data Profiling descubriendo distintas cosas. Al final les voy a contar en qué impacta todo esto a testing, pero por ahora, sepan que tenemos:

  • Estructura: Nos va a ayudar a descubrir si la data es consistente y está formateada de forma correcta. Utiliza estadísticas básicas para proveer información sobre la validez de la data.

  • Contenido: Se enfoca mayormente en la calidad de la data. Los datos, sobre todo cuando hablamos de ETL por ejemplo, tiene que ser procesada y formateada para que se pueda integrar con la data ya existente de forma correcta. Si tenemos una dirección o números de teléfono que no vienen formateados de una manera que se integre bien, eso tranquilamente puede significar cientos, miles, millones de clientes que no vas a alcanzar con tus campañas publicitarias por ejemplo.

  • Relación: Acá vamos a enfocarnos en descubrir las distintas relaciones entre los set de datos que tenemos. Esto muchas veces ayuda a descubrir conexiones que no habíamos tenido en cuenta!

Pero...qué tiene que ver esto con Testing?!


Bueno, como verán, Data Profiling está íntimamente ligado a la calidad que buscamos de nuestra data. Y qué somos? QAs! Así es... la relación es bastante fácil de ver. Muchas veces, en desarrollo se preocupa por generar la lógica, crear los unit tests y ver que la data se transforma como se esperaba con un set de datos creados por el mismo dev para cubrir esos casos unitarios. Eso está perfecto! Pero el mundo real puede traer muchas sorpresas...


Ahí es donde mayormente nos salva tener una red de contención en forma de Data Profiling. Si podemos analizar los datos, o acceder al análisis que otros equipos dedicados a analytics por ejemplo, hagan, vamos a poder entender muchísimo mejor las relaciones, predecir qué problemas podemos esperar, y crear nuestros casos de prueba atendiendo estos potenciales problemas.

41 visualizaciones0 comentarios

Entradas Recientes

Ver todo