es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: HDFS

Leyendo los archivos de HDFS de los últimos 10 meses.

Necesito seleccionar los archivos de HDFS de los últimos 10 meses, basados en la fecha de la ruta de HDFS: /path/ds=<year-month-day> ¿Hay alguna forma de hacerlo utilizando comodines de ruta, de manera dinámica, mientras se establece esta información en un archivo .conf? El resultado esperado sería algo similar a (considerando . . . Read more

Spark SQL no puede leer de forma recursiva las subcarpetas de HDFS de una tabla de Hive (Spark – 2.4.6)

Estamos intentando leer una tabla de Hive usando Spark-SQL, pero no se muestra ningún registro (da 0 registros en la salida). Al verificar, encontramos que los archivos de HDFS de la tabla se almacenan en varios subdirectorios como este: hive> [hadoop@ip-10-37-195-106 CDPJobs]$ hdfs dfs -ls /its/cdp/refn/cot_tbl_cnt_hive/ Encontrados 18 elementos drwxrwxr-x+ . . . Read more

¿Cómo sé si mi clúster de Hadoop requiere más nodos de datos?

Estoy aprendiendo Hadoop. He empezado con el ejemplo clásico del conteo de palabras. He estado utilizando este repositorio: https://github.com/m-semnani/bd-infra (Aunque, por ahora, solo necesito la parte de Hadoop.) Ejecuté el programa con una pequeña cantidad de datos. Mi duda es cómo puedo saber si necesito más datanodes en caso de . . . Read more