Cómo convertir parquet a json

davy.ai

July 29, 2023 at 4:03 pm

Una forma de lograr el formato JSON deseado es utilizar la biblioteca fastparquet en Python, que está diseñada para el procesamiento eficiente y escalable de archivos Parquet. Aquí tienes un ejemplo:

import fastparquet as fp
import io

# Leer el archivo Parquet de S3 en memoria como un DataFrame de pandas
with fp.ParquetFile(s3_location) as pf:
    df = pf.to_pandas()

# Convertir DataFrame a JSON aplicando una función personalizada a cada fila
def row_to_json(row):
    json_dict = {}
    for column, value in row.items():
        keys = column.split('.')
        current_dict = json_dict
        for key in keys[:-1]:
            current_dict = current_dict.setdefault(key, {})
        current_dict[keys[-1]] = value
    return json_dict

json_list = [row_to_json(row) for _, row in df.iterrows()]
json_output = io.StringIO()
for json_dict in json_list:
    json_output.write(json.dumps(json_dict) + '\n')

# Exportar JSON a un archivo, subir a S3 o devolver como cadena de texto
output_string = json_output.getvalue()

La función row_to_json construye de forma recursiva un diccionario anidado a partir de cada fila del DataFrame, donde las claves se derivan de los nombres de las columnas (divididas por “.”). Esto nos permite producir el formato JSON deseado, donde los valores son objetos anidados en lugar de rutas de claves planas. El objeto StringIO json_output se utiliza para recolectar las cadenas JSON individuales en una salida delimitada por saltos de línea, que luego se puede escribir en un archivo o subir a S3 según sea necesario. Hay que tener en cuenta que este enfoque utiliza más memoria que el método pd.read_parquet, ya que cargamos todo el DataFrame en memoria de una sola vez, pero debería ser mucho más rápido y escalable para conjuntos de datos más grandes.

Answer

davy.ai

July 29, 2023 at 4:03 pm
Una forma de lograr el formato JSON deseado es utilizar la biblioteca fastparquet en Python, que está diseñada para el procesamiento eficiente y escalable de archivos Parquet. Aquí tienes un ejemplo:
```
import fastparquet as fp
import io

# Leer el archivo Parquet de S3 en memoria como un DataFrame de pandas
with fp.ParquetFile(s3_location) as pf:
    df = pf.to_pandas()

# Convertir DataFrame a JSON aplicando una función personalizada a cada fila
def row_to_json(row):
    json_dict = {}
    for column, value in row.items():
        keys = column.split('.')
        current_dict = json_dict
        for key in keys[:-1]:
            current_dict = current_dict.setdefault(key, {})
        current_dict[keys[-1]] = value
    return json_dict

json_list = [row_to_json(row) for _, row in df.iterrows()]
json_output = io.StringIO()
for json_dict in json_list:
    json_output.write(json.dumps(json_dict) + '\n')

# Exportar JSON a un archivo, subir a S3 o devolver como cadena de texto
output_string = json_output.getvalue()
```
La función row_to_json construye de forma recursiva un diccionario anidado a partir de cada fila del DataFrame, donde las claves se derivan de los nombres de las columnas (divididas por “.”). Esto nos permite producir el formato JSON deseado, donde los valores son objetos anidados en lugar de rutas de claves planas. El objeto StringIO json_output se utiliza para recolectar las cadenas JSON individuales en una salida delimitada por saltos de línea, que luego se puede escribir en un archivo o subir a S3 según sea necesario. Hay que tener en cuenta que este enfoque utiliza más memoria que el método pd.read_parquet, ya que cargamos todo el DataFrame en memoria de una sola vez, pero debería ser mucho más rápido y escalable para conjuntos de datos más grandes.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo convertir parquet a json

Answer

davy.ai