Tag: HADOOP-YARN
Estoy muy confundido/a en este momento. Por favor, verifica si esto es correcto. Hay 4 casos de comandos como los siguientes: Significa que yarn está en modo cluster y se está implementando en modo cluster. cluster tiene contenedor YARN (con Spark AM, Spark Driver) y administrador de nodos YARN. spark-submit . . . Read more
Estoy tratando de ejecutar spark-submit en el maestro remoto, la complicación es que el maestro remoto requiere un archivo de identidad. Mi comando: unix spark-submit –master spark://<ip_remote_master>:7077 –conf spark.sql.files.ignoreCorruptFiles=true –conf spark.sql.files.ignoreMissingFiles=true –driver-memory 1g –executor-memory 2g run_script.py Error que estoy obteniendo: unix 21/12/15 13:01:19 INFO StandaloneAppClient$ClientEndpoint: Conectando al maestro spark://<ip_remote_master>:7077… 21/12/15 . . . Read more
Ahora estoy aprendiendo cómo construir un clúster de Hadoop y el primer paso es probar un clúster Pseudo-Distribuido siguiendo la guía de https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation. Y logré iniciar yarn llamando $HADOOP_HOME/sbin/start-dfs.sh y $HADOOP_HOME/sbin/start-yarn.sh. La salida de jps es la siguiente: Sin embargo, si envío un trabajo, que no hace nada en realidad, . . . Read more
Estoy teniendo dificultades para entender cómo están limitados los contenedores de Yarn en cuanto a los recursos asignados, especialmente la CPU. Estoy ejecutando trabajos de Spark o Flink en el clúster YARN. Cada ejecutor o administrador de tareas solicita un contenedor de Yarn que tiene 1 CPU. Básicamente, el número . . . Read more
En mi algoritmo, el nodo maestro necesita más memoria (digamos 20GB) mientras que los nodos trabajadores necesitan mucha menos memoria (digamos 3GB). Sin embargo, hasta donde yo sé, en H2O solo es posible establecer la misma cantidad de memoria para el nodo maestro y los nodos trabajadores utilizando -mapperXmx. En . . . Read more