The guide was originally published in English, you can read it here.
{{line}}
En muchos de los mercados y regiones el concepto de Customer Data Platform (CDP) todavía no es claro, es común escuchar preguntas como: ¿Esto es una solución para Marketing o para Tecnología? ¿Esto es otro data warehouse? ¿Podría activar los datos de mis usuarios?
Esta guía tiene como objetivo ayudar a las personas a tomar decisiones sobre el proceso de compra de una solución de CDP basadas en una comprensión clara de los diversos componentes de la mismas, el propósito de cada componente, y qué componentes se requieren para encontrar el camino más eficiente para activar la capa de datos de sus usuarios antes de que se vuelvan obsoletos o inutilizables!
El otro objetivo de esta guía es dar introducción al concepto de “composable CDP” (fue imposible conseguir una traducción a su nombre en inglés) en latinoamérica, que está en auge en mercados más maduros en donde las compañías han hecho de su solución de data warehouse su principal fuente creíble de datos del cliente.
Comencemos!
Introducción
La solución de CDP - definitivamente una bestia rara, no?
Yo creo que tiene una similaridad con Hidra en la mitología Griega - el monstruo de agua al que le crecen dos cabezas cada vez que le arrancan una.
Cada vez que intentan acabar con la solución de CDP se vuelve más fuerte, más personas hablan de ella, y cada vez más proveedores de tecnología mencionan que su solución es de cierta manera un CDP. Lo que la hace, hasta ahora, inmortal!
Yo estoy personalmente fascinado por las soluciones de CDP. En los últimos tres años, he pasado una cantidad increíble escribiendo sobre estas soluciones y seguido muy de cerca la evolución de un CDP empaquetado a composable. Y si has seguido las charlas de “Composable CDP vs. Packaged CDP” seguro que ya escuchaste los argumentos de ambos lados y no necesitas otro artículo explicando el porqué uno es mejor que el otro.
Creo que es momento de una guía imparcial que ofrezca un desglose completo de las soluciones de CDP en cada uno de sus componentes, que como en el caso de las cabezas de Hidra, siguen incrementando su número
Definición de CDP
En el año 2020, el auge del data warehouse fomento la aparición de uno de los componentes principales de un CDP, que hoy conocemos como “reverse ETL”, con la idea de que al combinar estas dos tecnologías las compañias harían viable la construcción, o el ensamble, de una plataforma de datos del cliente sobre el data warehouse.
Así surgió la idea de un “CDP composable” a principios del 2021 y cobró impulso en 2022.
Pero, ¿qué es exactamente un “composable CDP”? ¿Es una arquitectura? ¿Es un conjunto de módulos? ¿Es un conjunto de herramientas integradas? ¿O es una solución productiva como un CDP tradicional?
Si buscas en Google: "composable CDP", encontrarás que ninguno de los artículos ofrece una definición concisa de este término.
¡Vamos a cambiar esto!
En primer lugar, ¿qué es un CDP empaquetado?
Un CDP empaquetado es una solución productiva todo en uno con capacidades para recopilar y almacenar datos de múltiples fuentes, transformar y unificar los datos, resolver identidades, crear audiencias y sincronizar datos con múltiples destinos. Además, algunos CDP empaquetados también ofrecen herramientas para definir reglas de calidad de datos, implementar protocolos para fomentar el gobierno de datos y cumplir con regulaciones de privacidad.
Hay dos consideraciones clave aquí:
- Un CDP empaquetado necesita almacenar una copia de los datos que recopila para resolver identidades (resolución de ID) y crear perfiles de usuario unificados. Sin embargo, la metodología de resolución de identidad utilizada (bien sea probabilística o determinista) varía de un proveedor a otro.
- Los proveedores de CDP empaquetado generalmente permiten a las empresas crear sus propios paquetes combinando múltiples capacidades básicas y herramientas complementarias.
Entonces, ¿Qué es un CDP composable?
Una plataforma de datos del cliente (CDP) composable es un conjunto de herramientas integradas que se ensamblan mediante software de código abierto (o no abierto) para realizar algunas o todas las funciones de un CDP empaquetado.
Hay dos consideraciones clave aquí:
- Un CDP composable tiene algunas o todas las capacidades de un CDP empaquetado, dependiendo de cómo esté compuesto o ensamblado cada uno de los componentes.
- Un CDP composable se ensambla utilizando software de código abierto, soluciones administradas de software de código abierto o herramientas tipo SaaS.
Ahora que las definiciones están fuera del camino, profundicemos en los diversos componentes que comprende un CDP.
Componentes de un CDP
Uno de los desafíos clave con el término CDP es que ha sido ampliamente utilizado por una variedad de proveedores en una variedad de contextos diferentes. Muchos proveedores incluso han posicionado una funcionalidad o capacidad de su producto como CDP, simplemente porque la funcionalidad o capacidad permite a los usuarios administrar los datos de clientes que se han colectado en la solución.
Antes de hablar de cada componente vale la pena detallar lo siguiente:
- No todos los proveedores de CDP empaquetados ofrecen todos estos componentes
- Varios proveedores de CDP establecidos ofrecen capacidades o componentes adicionales
- Dentro de cada componente, las capacidades específicas pueden diferir de un proveedor a otro
- No necesariamente necesita todos estos componentes para componer un CDP
Vamos al detalle.
1. Colecta de Datos Comportamentales Customer Data Infrastructure o CDI
Un CDI es una herramienta especialmente diseñada que ofrece un conjunto de SDK para recopilar o colectar datos comportamentales o eventos de fuentes de datos propias.
Múltiples compañías tienen como productos sus aplicaciones web, aplicaciones móviles, o una combinación de estas que cuando son utilizadas por usuarios o clientes se convierten en una fuente de datos propios (o de primera mano) a través de eventos que ayudan a comprender o perfilar mejor a sus clientes.
Estos datos son un prerrequisito para un CDP y, sin estos datos, un CDP no es un CDP.
Los datos de comportamiento de sus fuentes de datos propias sirven como base para el funcionamiento de un CDP.
Hay dos consideraciones clave aquí:
- La capacidad de CDI de un CDP empaquetado permite que los datos comportamentales se sincronicen directamente en herramientas de terceros, sin la necesidad de almacenar un copia de ellos mismos en tu propio data warehouse.
- Las soluciones de CDI independientes soportan el data warehouse como principal destino, y a comparación con el componente de CDI de un CDP empaquetado (como Snowplow) ofrecen menos integración con soluciones de terceros
Para saber más sobre las capacidades y los proveedores de CDI (algunos de los cuales forman parte de la oferta de un CDP), aquí lo tienen
PD: Si bien he sido un gran defensor del término CDI, en retrospectiva, creo que el término "Cliente" de la nomenclatura Customer Data Infrastructure debería reemplazarse por "Audiencia", ya que los datos que se recopilan no se refieren solo a los clientes; de hecho, la recopilación de datos se inicia mucho antes de que un usuario u organización se convierte en cliente.
2. Ingestión de datos: ELT (o ETL)
Una solución ELT/ETL independiente está diseñada específicamente para extraer todo tipo de datos de un catálogo cada vez mayor de fuentes de datos secundarias (herramientas de terceros) y cargar los datos a un data warehouse.
Las fuentes de datos secundarias incluyen herramientas de terceros con las que los usuarios interactúan directa o indirectamente: herramientas utilizadas para autenticación, pagos, experiencias en la aplicación, soporte, comentarios, participación y publicidad.
Hay dos consideraciones clave aquí:
- Un CDP empaquetado que ofrece capacidades ELT (integraciones de origen con herramientas de terceros) primero recolecta los datos en su propio almacén de datos y, además, puede sincronizar los datos con un almacén de datos a través de integraciones de destino.
- Las capacidades de ELT de los proveedores de CDP empaquetados son muy limitadas en comparación con las soluciones ELT diseñadas específicamente para esto. Si necesita datos en un CDP desde una fuente que no es compatible de forma nativa con el proveedor de CDP, tendrá que crear su propia integración o usar una herramienta ELT para enviar los datos a un data warehouse y luego sincronizarlos nuevamente con el CDP usando las integraciones de fuentes ofrecidas.
3. Almacenamiento/almacenamiento de datos
Como ya se mencionó, los proveedores de CDP empaquetados almacenan una copia de los datos que recopilan en un almacén o almacén de datos interno. Además, los clientes pueden enviar una copia de los datos a su propio almacén de datos o lago de datos a través de integraciones.
El data warehouse, como ya se sabe, es el componente central de un CDP composable: la pieza central a la que se conectan todos los demás componentes.
Hay dos consideraciones clave aquí:
- Históricamente, el almacén de datos se ha utilizado para almacenar datos relacionales de herramientas de terceros y visualizar esos datos mediante una herramienta de BI. Por lo tanto, para ensamblar un CDP Composable, incluso las empresas que ya cuentan con un almacén deben incorporar datos de comportamiento de sus propias fuentes mediante un CDI.
- Se puede utilizar un CDP empaquetado junto con un almacén de datos. De hecho, cada vez es más común que los clientes de un CDP empaquetado almacenen una copia de sus datos en su propio almacén para uso futuro. Además, las empresas están adoptando un enfoque híbrido en el que aprovechan las capacidades listas para usar de un CDP empaquetado para ciertos casos de uso y, al mismo tiempo, ensamblan un CDP composable para casos de uso avanzados que se basan en modelos de datos personalizados.
4. Resolución de identidad y API de perfil
La resolución de identidad es el proceso de unificar los registros de usuarios capturados a lo largo de la vida del cliente de múltiples fuentes. Se requiere un conjunto de identificadores (ID) que se utilizan para hacer coincidir y fusionar registros de usuarios que se originan en diferentes fuentes, lo que permite a las empresas obtener una visión completa de cada usuario o cliente.
La resolución de identidad tiene varios casos de uso, pero principalmente ayuda con los esfuerzos de personalización y privacidad.
Hay dos consideraciones clave aquí:
- Un CDP empaquetado ofrece capacidad de resolución de identidad out of the box para usar y crear perfiles de usuario unificados. Los clientes de CDP luego pueden sincronizar estos perfiles unificados con un almacén de datos o con herramientas de terceros utilizando las API disponibles. Además, como se mencionó anteriormente, un proveedor de CDP utiliza la metodología probabilística o determinista para resolver identidades.
- En el enfoque composable, las empresas tienen que gestionar la resolución de identidad en su propio almacén de datos escribiendo el código de unificación mediante SQL. Debido a la flexibilidad que ofrece este enfoque, el analista puede utilizar cualquier metodología de resolución de ID que funcione mejor en función de los puntos de datos disponibles.
5. Creador visual de audiencias (y modelado de datos)
Otro prerrequisito para un CDP, es la capacidad de crear audiencias mediante un método sencillo: una interfaz que permite arrastrar y soltar para crear audiencias o segmentos combinando datos de varias fuentes.
Bajo el enfoque composable, esta capacidad la ofrecen las herramientas de ETL inversas, que ahora se conocen como herramientas de activación de datos.
Hay dos consideraciones clave aquí:
- Un CDP empaquetado crea automáticamente los modelos de datos subyacentes sobre los datos que almacena, lo que permite a los equipos que no utilizan datos crear audiencias sin dependencias. Sin embargo, estos modelos son rígidos y los clientes no pueden crear modelos personalizados según sus necesidades comerciales específicas.
- Una herramienta de activación de datos / ETL inverso requiere que los equipos de datos creen y expongan modelos de datos (usando SQL) sobre los datos que están en el almacén para permitir aún más que los equipos sin datos creen audiencias utilizando el generador de audiencia visual. Este enfoque brinda a las empresas total flexibilidad sobre sus modelos y la capacidad de incorporar entidades personalizadas.
PD: Creo que es necesario un término mejor para describir esta categoría de herramientas, ya que el término ETL inverso es solo una funcionalidad y la activación de datos es un caso de uso que también se puede cumplir utilizando un CDP empaquetado.
6. ETL inverso (reverse ETL)
Como ya se sabe, el ETL inverso se refiere al proceso de mover datos desde el almacén de datos a destinos posteriores (generalmente herramientas de terceros, pero también puede ser una base de datos interna).
Las empresas llevan algún tiempo construyendo canales de ETL inverso; sin embargo, el uso del término “ETL inverso” se recuperó sólo después de la productización del ETL inverso a principios de 2020 (Arpit escuchó el término por primera vez en agosto de 2020 de manos de Boris Jabes, el fundador de Census).
Estamos en 2024 y ahora Reverse ETL es una característica o componente del CDP.
Hay dos consideraciones clave aquí:
- La capacidad de un CDP empaquetado para mover datos a destinos posteriores, a menudo denominada orquestación, es esencialmente un ETL inverso, donde los datos se mueven desde el propio almacén de datos del CDP, en lugar del almacén del cliente. Hoy en día, la mayoría de los CDP empaquetados también admiten el almacén de datos del cliente como fuente de datos.
- En el enfoque composable, las empresas a las que les gusta construir todo internamente pueden construir sus propios canales o aprovechar el ETL inverso empaquetado que ofrecen las herramientas de activación de datos (como Census o Hightouch), así como algunos CDI (como RudderStack).
7. Calidad de datos
Un componente subestimado aunque importante, la calidad de datos (DQ) ayuda a las empresas a garantizar que los datos que impulsan sus CDP no sean irregulares. Las herramientas de DQ ayudan a las empresas a mantener la validez, precisión, coherencia, actualidad e integridad de los datos, entre otras cosas.
La calidad de los datos es una categoría muy amplia con una gran cantidad de herramientas para encontrar problemas y mantener la calidad de diferentes tipos de datos. Sin embargo, los datos de comportamiento son la base de un CDP donde se necesitan herramientas para garantizar que los datos sean válidos, precisos y actualizados.
Hay dos consideraciones clave aquí:
- Un CDP empaquetado normalmente ofrece funciones de calidad de datos para ejecutar pruebas con los datos de comportamiento que recopila. También ofrece a los equipos la posibilidad de crear planes de seguimiento de forma colaborativa.
- En el enfoque composable, el componente DQ puede provenir de la herramienta CDI o de una solución DQ separada (como Great Expectations) que puede, como mínimo, validar los datos entrantes.
8. Gobierno de datos y cumplimiento de privacidad
Otro componente extremadamente importante pero poco resaltado de un CDP es la capacidad de configurar controles de gobernanza y flujos de trabajo de cumplimiento.
Es justo decir que esto es algo que las empresas necesitan de todos modos, independientemente de si utilizan un CDP o no. Sin embargo, si una empresa utiliza un CDP, ya sea empaquetado o compuesto, debe garantizar algunas cosas como:
- La recopilación de datos se inicia sólo después de que un usuario haya dado su consentimiento para que los datos se recopilen para fines específicos, como marketing o análisis.
- Solo los datos que se necesitan en una herramienta de terceros se envían a ese destino específico. Por ejemplo, la PII, como la dirección de correo electrónico, se envía a una herramienta de terceros solo después de que el usuario final haya dado su consentimiento explícito para recibir correos electrónicos enviados mediante esa herramienta de terceros.
- Si un usuario opta por no participar en la recopilación de datos, no se deben recopilar más datos sobre ese usuario a través de fuentes propias y de terceros.
- Si un usuario desea ser olvidado (GDPR) o quiere optar por no vender sus datos (CCPA), las solicitudes de eliminación deben enviarse a las herramientas de terceros a donde se enviaron sus datos anteriormente.
- Los miembros internos del equipo deberían poder acceder a datos confidenciales o PII solo si es necesario que accedan a esos datos, con permisos granulares basados en roles.
Estas son solo algunas de las capacidades clave del componente de Gobernanza y Cumplimiento de un CDP y, como puede ver, no es trivial desarrollarlo internamente.
Hay dos consideraciones clave aquí:
- Las capacidades de gobierno y cumplimiento de los CDP empaquetados varían significativamente y solo los principales proveedores de CDP ofrecen kits de herramientas completos.
- En el enfoque composable, se pueden aprovechar algunas de estas capacidades ofrecidas por algunos de los proveedores de CDI o integrar herramientas independientes diseñadas específicamente para gobierno y cumplimiento.
Conclusión
Espero que con esta guía tengan un mejor entendimiento de que compone un CDP empaquetado y que lo diferencia de uno “composable”, y cual es más idóneo para su organización.
La clave para seleccionar un CDP composable es tener un equipo de ingeniería de datos maduro que traduzca los requisitos de una organización en componentes o módulos que los soporten. ¿Hay una oportunidad de negocio acá? Yo sí creo.
Para latinoamérica la ola de “CDP Composable” aún no ha llegado, pero no tardará mucho, con la modernización de las bodegas de datos cloud con una fuerte penetración en el mercado de Snowflake y BigQuery los clientes tendrán mayor facilidad de gestión (algunos siendo incluso serverless) y posibilidad de soportar datos de tipo evento, lo que abrirá sin duda la llegada de proveedores con esta nueva propuesta.
Les guste o no, un CDP es una bestia como Hidra, que cada vez le salen más cabezas, y ni siquiera hemos mencionado los desarrollos más recientes que, de manera lenta pero segura, encontrarán formas de conspirar con la bestia: cosas como streaming data infrastructure, zero-party data, y por supuesto, la inteligencia artificial.
Get Yourself an Upgrade!
- A calm, member-only Slack community
- Jam sessions via Zoom
- Expert practitioners who love helping other learn