Accediendo a Hadoop con Python

davy.ai

August 4, 2023 at 11:28 pm

Hay muchas bibliotecas disponibles para Python que se pueden utilizar para interactuar con el Sistema de Archivos Distribuido de Hadoop (HDFS). Algunas de ellas son:

Hdfs (https://github.com/domdere/hdfs3): Es un cliente HDFS puro en Python que proporciona una interfaz que se asemeja estrechamente a la API estándar de C++. Es compatible con Python 3.
Pydoop (https://github.com/crs4/pydoop): Es una API de Python para MapReduce y HDFS para Hadoop.
Snakebite (https://github.com/spotify/snakebite): También es un cliente HDFS puro en Python que proporciona una forma simple y rápida de interactuar con el Sistema de Archivos Distribuido de Hadoop (HDFS).

Para realizar las tareas mencionadas, a continuación se muestran los fragmentos de código utilizando el paquete Python ‘hdfs’.

Copiar un archivo de Local a HDFS

from hdfs import InsecureClient

client = InsecureClient('http://<servidor-namenode>:<puerto>', user='<nombre-de-usuario-hadoop>')
client.upload('/ruta/destino/hdfs', '/ruta/archivo/local')

Descargar un archivo de HDFS a Local

from hdfs import InsecureClient

client = InsecureClient('http://<servidor-namenode>:<puerto>', user='<nombre-de-usuario-hadoop>')
client.download('/ruta/archivo/hdfs', '/ruta/destino/local')

Leer varios tipos de archivos, como archivos de texto, avro, csv y parquet almacenados en HDFS

from hdfs import InsecureClient

client = InsecureClient('http://<servidor-namenode>:<puerto>', user='<nombre-de-usuario-hadoop>')
texto = client.read('/ruta/archivo.txt')
avro = client.read_avro('/ruta/archivo.avro')
csv = client.read_csv('/ruta/archivo.csv')
parquet = client.read_parquet('/ruta/archivo.parquet')

Nota: Reemplace <servidor-namenode> y <puerto> con los valores correspondientes de su clúster de Hadoop, y <nombre-de-usuario-hadoop> con el nombre de usuario con el que desea conectarse a HDFS.

Answer

davy.ai

August 4, 2023 at 11:28 pm
Hay muchas bibliotecas disponibles para Python que se pueden utilizar para interactuar con el Sistema de Archivos Distribuido de Hadoop (HDFS). Algunas de ellas son:
1. Hdfs (https://github.com/domdere/hdfs3): Es un cliente HDFS puro en Python que proporciona una interfaz que se asemeja estrechamente a la API estándar de C++. Es compatible con Python 3.
2. Pydoop (https://github.com/crs4/pydoop): Es una API de Python para MapReduce y HDFS para Hadoop.
3. Snakebite (https://github.com/spotify/snakebite): También es un cliente HDFS puro en Python que proporciona una forma simple y rápida de interactuar con el Sistema de Archivos Distribuido de Hadoop (HDFS).
Para realizar las tareas mencionadas, a continuación se muestran los fragmentos de código utilizando el paquete Python ‘hdfs’.

Copiar un archivo de Local a HDFS
```
from hdfs import InsecureClient

client = InsecureClient('http://<servidor-namenode>:<puerto>', user='<nombre-de-usuario-hadoop>')
client.upload('/ruta/destino/hdfs', '/ruta/archivo/local')
```
Descargar un archivo de HDFS a Local
```
from hdfs import InsecureClient

client = InsecureClient('http://<servidor-namenode>:<puerto>', user='<nombre-de-usuario-hadoop>')
client.download('/ruta/archivo/hdfs', '/ruta/destino/local')
```
Leer varios tipos de archivos, como archivos de texto, avro, csv y parquet almacenados en HDFS
```
from hdfs import InsecureClient

client = InsecureClient('http://<servidor-namenode>:<puerto>', user='<nombre-de-usuario-hadoop>')
texto = client.read('/ruta/archivo.txt')
avro = client.read_avro('/ruta/archivo.avro')
csv = client.read_csv('/ruta/archivo.csv')
parquet = client.read_parquet('/ruta/archivo.parquet')
```
Nota: Reemplace <servidor-namenode> y <puerto> con los valores correspondientes de su clúster de Hadoop, y <nombre-de-usuario-hadoop> con el nombre de usuario con el que desea conectarse a HDFS.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?