Tag: HDFS
Necesito seleccionar los archivos de HDFS de los últimos 10 meses, basados en la fecha de la ruta de HDFS: /path/ds=<year-month-day> ¿Hay alguna forma de hacerlo utilizando comodines de ruta, de manera dinámica, mientras se establece esta información en un archivo .conf? El resultado esperado sería algo similar a (considerando . . . Read more
Cada vez que reinicio mi sistema Ubuntu (Vbox) y ejecuto Hadoop, mi nodo de nombres no funciona. Para resolver esto, siempre tengo que borrar las carpetas de namenode y datanode y formatear Hadoop cada vez que reinicio mi sistema. Llevo 2 días intentando resolver el problema, pero no funciona. He . . . Read more
Estamos intentando leer una tabla de Hive usando Spark-SQL, pero no se muestra ningún registro (da 0 registros en la salida). Al verificar, encontramos que los archivos de HDFS de la tabla se almacenan en varios subdirectorios como este: hive> [hadoop@ip-10-37-195-106 CDPJobs]$ hdfs dfs -ls /its/cdp/refn/cot_tbl_cnt_hive/ Encontrados 18 elementos drwxrwxr-x+ . . . Read more
Estoy aprendiendo Hadoop. He empezado con el ejemplo clásico del conteo de palabras. He estado utilizando este repositorio: https://github.com/m-semnani/bd-infra (Aunque, por ahora, solo necesito la parte de Hadoop.) Ejecuté el programa con una pequeña cantidad de datos. Mi duda es cómo puedo saber si necesito más datanodes en caso de . . . Read more
Quiero escribir en formato parquet en hdfs. Al conectar a hdfs con el código a continuación, obtengo el error “OSError: fallo en la conexión de HDFS”. No estoy seguro si tengo los parámetros de host, puerto y usuario correctos al realizar esta conexión. ¿Cómo puedo aprender estos parámetros en mi . . . Read more