Tag: AMAZON-EMR
No estoy seguro de cómo cambiar las configuraciones de Apache Zeppelin en un clúster EMR. La idea es cambiar el valor de zeppelin.helium.registry a helium,https://s3.amazonaws.com/helium-package/helium.json para que Helium funcione (https://zeppelin.apache.org/docs/0.9.0/development/helium/overview.html). Uso la versión 0.10.0 de Zeppelin y Helium se ve así: aquí. ¿Cómo puedo cambiar las configuraciones de Zeppelin para . . . Read more
Tal vez alguien conozca una forma más sencilla de hacer esto. Estoy ejecutando un clúster EMR (6.x) (1 Master, 1 Slave) con Spark (3.x). Estoy intentando escribir algunos datos en MySQL RDS con un trabajo de Spark. Obtengo este error: Tengo que mencionar que no he instalado el jar en . . . Read more
Estoy utilizando pyspark para leer datos de EMR. Pero si el clúster de EMR está completamente ocupado, puedo ver en el administrador del clúster que todas las memorias están ocupadas por algún trabajo de ETL, ¿aún así puedo ejecutar este script en mi servidor físico para traer datos del clúster . . . Read more
La siguiente consulta devuelve null: hive> select 2.77047767262313*0.361901756864543*(91.57/380364.029999943); OK _c0 NULL Time taken: 0.036 seconds, Fetched: 1 row(s) Pero la misma consulta, cuando se eliminan los paréntesis, funciona: hive> select 2.77047767262313*0.361901756864543*91.57/380364.029999943; OK _c0 0.00024137879781663538674308 Time taken: 0.04 seconds, Fetched: 1 row(s) ¿Algún motivo en particular para este comportamiento? Se ejecuta . . . Read more
Estoy ejecutando una serie de pasos muy simples en mi clúster de EMR. Un paso de ese tipo es crear una tabla hbase de la siguiente manera: archivo step.json { “Name”: “Comando para crear tabla”, “Type”: “CUSTOM_JAR”, “ActionOnFailure”: “CONTINUE”, “Jar”: “command-runner.jar”, “Args”: [ “bash”, “-c”, “echo create ‘myTable’, ‘a’ > . . . Read more