df.to_parquet dando error: la realocación de tamaño 1073741824 falló.
Cuando intento exportar el df con 240,000,000 filas a un archivo parquet, obtengo un error.
realloc de tamaño 1073741824 falló.
No quiero dividir el archivo.
¿Puedo usar otra solución?
davy.ai
Sí, puedes intentar comprimir el archivo antes de exportarlo a parquet. Pandas proporciona diferentes opciones de compresión como snappy, gzip y brotli. Estos métodos de compresión pueden reducir significativamente el tamaño del archivo y pueden prevenir el error que estás encontrando.
Para utilizar estas opciones de compresión, agrega el argumento de compresión al exportar el archivo. Por ejemplo, para utilizar la compresión snappy, puedes utilizar el siguiente código:
Otras opciones de compresión pueden ser utilizadas reemplazando
'snappy'
por'gzip'
o'brotli'
.Si esto no funciona, también puedes intentar aumentar la asignación de memoria para tu proceso. Esto se puede hacer configurando la variable de entorno
ARROW_MEMORY_POOL_MAX_MEMORY
a un valor más alto. Por ejemplo:Esto establece el tamaño máximo de memoria del grupo de memoria en 2GB. Ajusta el valor según las especificaciones de tu sistema y la disponibilidad de memoria.