Workflow Transformación Datos
Sitio: | STRATIO Training & Certification |
Curso: | Práctica Generative AI Data Processing (14.6) |
Libro: | Workflow Transformación Datos |
Imprimido por: | Invitado |
Día: | jueves, 17 de julio de 2025, 23:45 |
1. Lógica del proceso
Lógica del proceso
De los datos en el fichero de clientes today necesitamos realizar una calificación de nivel de riesgo (rojo, amarillo o verde) para categorizar a los clientes en función de ciertas caracteristicas:
- Los clientes con LegalCase = 1 OR PoliceReport = 1 serán categoría de riesgo rojo.
- Los clientes con ContactAudit = 1 OR FraudSuspicion = 1 serán cateogoría de riesgo amarillo.
- Solo pasaran acategoría de riesgo verde los clientes con un Credit_amount <= 4000
En los siguientes pasos te describiremos ciertas transformaciones que debes usar para relizar este proceso.
2. Renombrar columnas
Renombrar columnas
Vamos a renombrar el identificador de una de las tablas origen
para que no coincida con el identificador de la otra tabla
3. join
join
Ahora vamos a realizar un join de las tablas que van a servir de base para obtener toda la información necesaria para la categorización:
El proceso debería estar quedando así y si depuramos vemos que conseguimos ver los datos que salen del join.
4. Filtros
Filtros
Una vez tenemos los datos unidos vamos a aplicar los filtros que nos categoricen los clientes. Creaemos tres filtros
Los clientes con LegalCase = 1 OR PoliceReport = 1 serán categoría de riesgo rojo.
Los clientes con ContactAudit = 1 OR FraudSuspicion = 1 serán cateogoría de riesgo amarillo.
Solo pasaran acategoría de riesgo verde los clientes con un Credit_amount <= 4000
Este sería el ejemplo del primero de ellos:
Vamos a unir la salida de cada uno de los filtros a un Output print que llamaremos de su color
Ahora uniremos los tres colores con los datos que no pasen el filtro:
Esto lo conseguimos pulsando sobre la flecha de la union y seleccionando "discarted data", que son los datos que no pasan el filtro. Y lo que hacemo es pasarlos al siguiente filtro.
En el debug podemos ver como aparecen dos salidas en cada caja del filtro que tiene filas descartadas:
Este es el workflow hasta el momento:
5. Añadir Columnas
Añadir Columnas
Añadiremos una columna que defina el color de salida de los registros que cumplen la condición:
Por ejemplo en el caso del filtro Rojo
Si depuramos podemos ver como aparece la columna
Lo hacemos para los tres colores
6. Unión
Unión
Ahora como último paso vamos a unir las tres salidas de colores en una una salida a un output "Print" en el que todos los registros estén unidos y tengan una columna que describe la categoría. Cómo indica la descripción usaremos union cuando los esquemas de los registros sean idénticos.
si depuramos tendremos todos los registros en una sola salida