¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: BIGDATA

¿Cuál es la diferencia entre trabajar con clústeres en Spark y operaciones paralelas en local?

11 Jul, 2023 Programación 0

He estado estudiando sobre big data por un tiempo. Y actualmente estoy tratando de usar PySpark :). Pero en cierto punto, estoy realmente confundido. Por ejemplo, según sé, Spark, dependiendo de su opción RDD, hace la paralelización automáticamente. Entonces, ¿por qué utilizamos clusters en lugar de utilizar esta paralelización local? . . . Read more

RandomizedSearchCV está tardando demasiado en el Random Forest.

19 Jun, 2023 Programación 0

Estoy intentando hacer una clasificación para un análisis de churn con big data. El método RandomizedSearchCV está tomando al menos 6 horas y necesito encontrar una manera de reducir su tiempo. De la biblioteca sklearn.model_selection importo RandomizedSearchCV. Defino las variables n_estimators, max_features y max_depth. random_grid es un diccionario que contiene . . . Read more

MIGRAR LA FUNCIÓN PIVOT ASTER A LA FUNCIÓN HIVE

17 Jun, 2023 Programación 0

Tengo un script aster existente que necesito migrar al lenguaje de Hive. Pero no entiendo cómo el script define el valor en la columna. No sé cómo cambiar la función para que se pueda ejecutar en Hive. ¿Alguien puede ayudarme? Aquí está el script.

¿Cómo obtener una muestra aleatoria de un archivo .txt al leerlo en R?

12 Jun, 2023 Programación 0

Tengo 2 grandes marcos de datos en formato .txt con los que estoy trabajando en R (cada uno de más de 5 GB con más de 5 millones de observaciones). Me preguntaba si había una manera fácil de obtener una muestra aleatoria de ~20,000 filas de cada uno al leer . . . Read more

Comparar datos entre tabla postgres y tabla snowflake con DDL idéntico.

10 Jun, 2023 Programación 0

He migrado algunas tablas, cada una con al menos 200 millones de filas, de postgresDB a snowflake y ahora necesito comparar los datos entre ambos para asegurarme de que la actividad de migración de datos se haya completado con éxito. ¿Hay alguna manera de comparar tablas de manera efectiva y . . . Read more

1 … 4 5 6 7