Salta al contenido principal

Workflow Transformación Datos

Sitio: STRATIO Training & Certification
Curso: Práctica Generative AI Data Processing (14.6)
Libro: Workflow Transformación Datos
Imprimido por: Invitado
Día: jueves, 17 de julio de 2025, 23:45

1. Lógica del proceso

Lógica del proceso

De los datos en el fichero de clientes today necesitamos realizar una calificación de nivel de riesgo (rojo, amarillo o verde) para categorizar a los clientes en función de ciertas caracteristicas:

  • Los clientes con LegalCase = 1 OR PoliceReport = 1 serán categoría de riesgo rojo.
  • Los clientes con ContactAudit = 1 OR FraudSuspicion = 1 serán cateogoría de riesgo amarillo.
  • Solo pasaran acategoría de riesgo verde los clientes con un Credit_amount <= 4000

En los siguientes pasos te describiremos ciertas transformaciones que debes usar para relizar este proceso.

2. Renombrar columnas

Renombrar columnas

Vamos a renombrar el identificador de una de las tablas origen 

para que no coincida con el identificador de la otra tabla

3. join

join

Ahora vamos a realizar un join de las tablas que van a servir de base para obtener toda la información necesaria para la categorización:

El proceso debería estar quedando así y si depuramos vemos que conseguimos ver los datos que salen del join.

4. Filtros

Filtros

Una vez tenemos los datos unidos vamos a aplicar los filtros que nos categoricen los clientes. Creaemos tres filtros

Los clientes con LegalCase = 1 OR PoliceReport = 1 serán categoría de riesgo rojo.

Los clientes con ContactAudit = 1 OR FraudSuspicion = 1 serán cateogoría de riesgo amarillo.

Solo pasaran acategoría de riesgo verde los clientes con un Credit_amount <= 4000

Este sería el ejemplo del primero de ellos:

Vamos a unir la salida de cada uno de los filtros a un Output print que llamaremos de su color

Ahora uniremos los tres colores con los datos que no pasen el filtro:

Esto lo conseguimos pulsando sobre la flecha de la union y seleccionando "discarted data", que son los datos que no pasan el filtro. Y lo que hacemo es pasarlos al siguiente filtro.

En el debug podemos ver como aparecen dos salidas en cada caja del filtro que tiene filas descartadas:

Este es el workflow hasta el momento:

5. Añadir Columnas

Añadir Columnas

Añadiremos una columna que defina el color de salida de los registros que cumplen la condición:

Por ejemplo en el caso del filtro Rojo

Si depuramos podemos ver como aparece la columna

Lo hacemos para los tres colores

6. Unión

Unión

Ahora como último paso vamos a unir las tres salidas de colores en una una salida a un output "Print" en el que todos los registros estén unidos y tengan una columna que describe la categoría. Cómo indica la descripción usaremos union cuando los esquemas de los registros sean idénticos.

si depuramos tendremos todos los registros en una sola salida