Tag: MAPREDUCE
Disculpas de antemano si resulta ser una pregunta tonta, soy nuevo en el entorno de Hadoop. Tengo dos clústeres de Hadoop, mi clúster de producción “my-prod-cluster” y mi clúster de BCP “my-bcp-cluster”. Ambos son accesibles a través de la misma red. ¿Hay alguna manera de configurar mis clústeres de tal . . . Read more
Estoy utilizando Dask Bag para ejecutar algunos cálculos de map-reduce simples en un clúster especial: import dask.bag as bag summed_image = bag.from_sequence(my_ids).map(gen_image_from_ids).reduction(sum, sum).compute() Este código genera una secuencia de cálculos encadenados, comienza mapeando desde from_sequence y gen_image_from_ids, y luego reduce todos los resultados en uno solo con sum. Gracias a . . . Read more
No puedo encontrar respuesta a esta pregunta. ¿Cómo detener de manera elegante el rol de YARN en un nodo de datos y esperar hasta que todos los trabajos en ejecución en un nodo de datos finalicen con éxito? Sé que en ClouderaManager puedes desactivar el rol de yarn cuando lo . . . Read more
¿Cuál es la desventaja de implementar map reduce directamente en Airflow? Puedo crear de forma dinámica operadores para map y reduce al crear el DAG para Airflow.
Tengo que ejecutar algunos comandos maprcli a diario, y el comando maprcli debe ejecutarse con un usuario especial. Tanto el comando maprcli como el usuario están en el host local. Para programar estas tareas, necesito utilizar airflow, que funciona en un contenedor docker. Aquí me encuentro con 2 problemas: 1. . . . Read more