Principales desafíos en la gestión de datos B2B y qué hacer con ellos
Calidad de datos: el obstáculo para el marketing basado en datos
Bad data. Parece que este es el villano moderno que nos impide tener un entorno empresarial basado en datos. Este concepto continúa surgiendo en conversaciones, informes, planificación y previsiones. Parece fácil y lógico culpar a los datos imprecisos por impedirnos alcanzar nuestras metas o conclusiones.
Según un estudio de la Harvard Business Review, la mitad (50%) de las personas que trabajan con datos están desperdiciando su tiempo buscando datos, encontrando y corrigiendo errores, y buscando fuentes confirmatorias para los datos en los que no confían.
Incidir en los datos imprecisos como la razón o el principal obstáculo para alcanzar nuestras metas es tan solo rascar la superficie de un síntoma que puede tener muchas causas. Vamos a profundizar en ello.
¿Qué es el “bad data”?
En primer lugar, ¿qué consideramos “bad data”, a menudo descritos como datos “sucios” o “imprecisos”? En términos sencillos, son datos que contienen errores, como faltas de ortografía o puntuación, datos incompletos, datos obsoletos, registros duplicados en la base de datos y asociaciones de datos incorrectas. Los ”bag data” son datos en los que nuestros equipos no confían, o peor aún, son datos en los que confiamos pero no deberíamos hacerlo.
Entonces, ¿qué causa el “bad data”? Muchas cosas. Los datos imprecisos son el resultado o la manifestación de una serie de eventos.
A continuación se presentan uno por uno, la raíz del problema y los posibles pasos que se pueden llevar a cabo para una rápida solución.
Datos incompletos
Causa: Esto puede manifestarse de diversas formas: datos completamente ausentes o parcialmente introducidos. La incompletitud no solo limita la informaciónque podemos obtener de los datos (como informes y análisis), sino que también restringe cualquiera las operaciones data driven (basadas en datos), como IA/ML.
Solución: Implementar “guardianes” de creación de datos que eviten la creación de datos incompletos. Por ejemplo, en los formularios, se puede utilizar una función de autocompletar o proporcionar sugerencias al usuario, a partir de un conjunto sólido de datos referenciales externo para completar el formulario, y asegurarse de que los campos obligatorios se completan de manera inteligente mediante controles de calidad de datos.
Datos duplicados
Causa: Esto ocurre cuando los registros comparten fortuitamente atributos con otros registros en la base de datos. Cuando existen datos duplicados en el ecosistema de datos, las consecuencias pueden incluir la sobrecontabilización al agregar datos, lo que genera valores incorrectos en informes y análisis, esfuerzos de alcance desperdiciados y confusión. La gestión empresarial se vuelve cada vez más desafiante a medida que se acumulan los efectos de los datos duplicados.
Solución: Comprender qué “duplicados” conservar, eliminar o archivar, requiere entender las necesidades del negocio. Gestionar los datos a través de técnicas de agrupación (es decir, combinación). Agrupar versiones similares de estos registros como miembros de ese grupo. Elegir la mejor versión como la entidad principal y el resto como miembros. Esta es una forma sistemática de eliminar duplicados en los datos. Dado que no todos los duplicados son iguales, es posible que se desee mantener algunos (debido a necesidades del negocio o regulatorias) y guardarlos dentro de un grupo manejable. Esto es lo que se conoce como un registro maestro o dorado.
El modelo de aprendizaje automático en D&B Connect Manage, la última oferta de gestión de datos de Dun & Bradstreet, puede impulsar la resolución centrada en grupos de casi el 100% de los duplicados para crear registros maestros confiables en conjuntos de datos. Lo que solía ser (y aún es) una tarea complicada para la mayoría de las empresas ahora es alcanzable.
Sistemas de origen dispares (silos de datos)
Causa: Es casi inevitable tener muchos sistemas de origen diferentes. De hecho, un estudio de Dun & Bradstreet de 2021 encontró que, de media, las tecnologías utilizadas en ventas y marketing usan, al menos, de 10 herramientas. La compleja situación empresarial actual prácticamente obliga a ello. Ser capaz de gestionarlos como parte del sistema puede ser una tarea desalentadora. Aunque es posible que no compartan los mismos procesos, los datos podrían necesitar relacionarse con otros conjuntos de datos. Los conceptos de almacén de datos, lagos de datos y ahora mallas de datos fueron concebidos para hacer posible y escalable la gestión de datos procedentes de diferentes sistemas.
Solución: La reacción automática es establecer un lago de datos, pero esto no es suficiente para juntar todos los datos en un solo lugar. Sin curar, calificar y gobernar los datos que ingresan al lago, fácilmente podría convertirse en un pantano de datos. Además de asegurar técnicamente el flujo de datos a través de conexiones, como las APIs, se debe pensar en dominar los datos en el lago de datos utilizando metodologías de agrupación para relacionar datos de fuentes dispares en un entorno común. Al poder crear un registro maestro mediante la agrupación de entidades similares, se obtendrá una comprensión más sólida de la superposición de datos y las novedades netas. Contar con un motor de coincidencia/combinación ayudará a gestionar las fuentes de datos, tanto existentes como nuevas, en el lago de datos.
Decadencia de datos
Causa: De todos los datos maestros empresariales, los datos de contacto parecen ser los que se degradan más rápidamente. En algunas áreas, se pueden encontrar datos que se degradan a una tasa del 34% anualmente. Esto puede ser alarmante para las organizaciones data driven, ya que obtienen información para la toma de decisiones a partir de los mismos. La estadística mencionada puede resultar bastante desalentadora, ya que cada vez dependemos más de los datos para dirigir nuestros negocios. La situación económica actual hace que sea aún más importante prestar atención a la decadencia de los datos. Las empresas que cierran o los problemas en la cadena de suministro son algunos ejemplos que añaden complejidad a las fusiones, adquisiciones y desinversiones esperadas que experimenta el mercado. ¿Cómo nos podemos asegurar de que los datos sigan siendo relevantes?
Solución: Enriquecimiento de datos. Debe ser capaz de contrastar periódicamente los datos con una fuente confiable de datos de referencia externos. Como dice el refrán, no tires al bebé junto con el agua de baño (don’t throw out the baby with the bathwater). Es muy fácil etiquetar los activos de datos actuales como deficientes debido a su bajo rendimiento o al escuchar anécdotas de quienes dependen de esos activos. Trabajar con fuentes externas o de terceros para obtener atributos actualizados sobre los datos de contacto existentes. Como se ha mencionado antes, nos enfrentamos a una decadencia de datos a una tasa del 34% o más por año. Necesitamos tener un programa de enriquecimiento efectivo parejo con el umbral de precisión de datos de su organización. Realizarlos de manera ad hoc podría ser perjudicial para sus usuarios, ya que no escalará. Es necesario proporcionar una estrategia de enriquecimiento y un cronograma y comunicar a las partes interesadas.
Conclusión: un caso para la gobernanza de datos
Estas recomendaciones y mejores prácticas son solo piezas de un rompecabezas más grande. Existe una fuerte necesidad de gobernanza de datos para establecer políticas y cumplir con los estándares de calidad de datos con el fin de detener el flujo de datos deficientes hacia nuestros activos de datos. La buena noticia es que muchas de las soluciones propuestas son alcanzables, y se pueden automatizar a gran escala con IA y ML.
Las recomendaciones anteriores, además de comprender dónde, cuándo y cómo implementar estos pasos, son cruciales para su estrategia de datos. La solución y la raíz del problema son las mismas: la gobernanza de datos. Es una función de la que ya no podemos prescindir. Nuestra creciente dependencia de los datos así lo demuestra.
Artículo original de Dun & Bradstreet
No hay comentarios