Tag: BIGDATA
Problema: Necesitamos un método de big data para calcular distancias entre puntos. Planteamos a continuación lo que nos gustaría hacer con un dataframe de cinco observaciones. Sin embargo, este método en particular no es factible cuando el número de filas es grande (>1 millón). En el pasado, hemos utilizado SAS . . . Read more
Tengo una tabla de registro que consta de datos sin procesar que requieren procesamiento, lo cual a veces requerirá establecer una tabla de destino para evitar errores de recursos. Actualmente estoy usando una Vista de BigQuery para procesar y persistir el resultado en otra tabla de BigQuery, con una Consulta . . . Read more
Estoy trabajando con un conjunto de datos almacenados en un cubo S3 (archivos Parquet) que consta de un total de ~165 millones de registros (con ~30 columnas). Ahora, el requisito es primero agrupar una cierta columna de ID y luego generar más de 250 características para cada uno de estos . . . Read more
Tengo un escenario en el que recibiré datos en archivos CSV y necesito generar algunas columnas con las existentes. Ejemplo: Col_1 Col_2 Col_3 Col_4 abc 1 No 123 xyz 2 Yes 123 def 1 Yes 345 Esperado: Col_1 Col_2 Col_3 Col_4 Col_5 Col_6 abc 1 No 123 1 1 xyz . . . Read more
La tarea es la siguiente. Tengo un código que tiene una gran cantidad de atributos. Y para uno de los atributos, digamos que este es el tipo de tarjeta cardtype=’universal’, necesitas agregar la siguiente condición: case when card>=’129897′ and card<=’293965’then ‘sin nombre’ and card>=’093750′ and card <=’903750′ then ‘personal’ end . . . Read more