Tag: CLOUDERA
Tengo un servidor Cloudera HBASE que muestra un aumento repentino en el tiempo de GC (20s), lo que provoca que mis tareas del Executor de Spark Streaming fallen debido a que las consultas de Phoenix tardan más que el límite de tiempo (60s). No soy un experto en GC y . . . Read more
En el proyecto, utilizamos algunos scripts técnicos en Python con el uso de Subprocess para extraer datos de Hive, ejecutar reparación de tabla con msck, etc. (Sé que deberíamos cambiar a beeline :p) Desafortunadamente, después del problema con log4j, empezamos a obtener algo como esto en cada resultado: WARN La . . . Read more
Tenemos SQL Server 2016 con una columna varbinary que contiene XML comprimido. Ahora queremos cargar datos en una tabla de cdp hive (Hive 3.1.3000) DESCOMPRIMIÉNDOLOS. Inicialmente estábamos utilizando una utilidad de Java para descomprimir e inflar los datos, pero ahora estamos buscando un enfoque alternativo como pyspark. Estábamos utilizando el . . . Read more
Tenemos un clúster en Cloudera. Estamos utilizando instantáneas para respaldar el HDFS. Recientemente, hemos observado que el espacio utilizado en HDFS ha estado creciendo significativamente. Sospechamos que esto se debe a las instantáneas que utilizamos para las copias de seguridad. Cuando intentamos ver el tamaño de un directorio, vemos lo . . . Read more
Tengo una tabla desordenada en Cloudera con una columna de números en forma de cadena. Algunos números están en su forma de 8 dígitos, mientras que otros están en notación científica, como 91234567 vs 9.1234567E7. Cuando los números terminan en cero(s), hay menos decimales, por ejemplo, 9.12E7 para 91200000. ¿Cómo . . . Read more