Tag: BIGDATA
He estado estudiando sobre big data por un tiempo. Y actualmente estoy tratando de usar PySpark :). Pero en cierto punto, estoy realmente confundido. Por ejemplo, según sé, Spark, dependiendo de su opción RDD, hace la paralelización automáticamente. Entonces, ¿por qué utilizamos clusters en lugar de utilizar esta paralelización local? . . . Read more
Estoy intentando hacer una clasificación para un análisis de churn con big data. El método RandomizedSearchCV está tomando al menos 6 horas y necesito encontrar una manera de reducir su tiempo. De la biblioteca sklearn.model_selection importo RandomizedSearchCV. Defino las variables n_estimators, max_features y max_depth. random_grid es un diccionario que contiene . . . Read more
Tengo un script aster existente que necesito migrar al lenguaje de Hive. Pero no entiendo cómo el script define el valor en la columna. No sé cómo cambiar la función para que se pueda ejecutar en Hive. ¿Alguien puede ayudarme? Aquí está el script.
Tengo 2 grandes marcos de datos en formato .txt con los que estoy trabajando en R (cada uno de más de 5 GB con más de 5 millones de observaciones). Me preguntaba si había una manera fácil de obtener una muestra aleatoria de ~20,000 filas de cada uno al leer . . . Read more
He migrado algunas tablas, cada una con al menos 200 millones de filas, de postgresDB a snowflake y ahora necesito comparar los datos entre ambos para asegurarme de que la actividad de migración de datos se haya completado con éxito. ¿Hay alguna manera de comparar tablas de manera efectiva y . . . Read more