Tag: PYARROW
Necesito realizar algunas operaciones comunes con directorios de HDFS utilizando python3. Tales como mkdir, chmod, chown, test si el directorio existe. Intento usar pyarrow, ya que es el cliente oficial de Python. Entonces, revisé la nueva documentación de la API y no encontré ningún método útil. El uso de la . . . Read more
En un conjunto de datos grande con muchos archivos, ¿hay alguna diferencia al filtrar directamente un conjunto de datos a una tabla como esta?: dataset.to_table(columns, filter=filter_expression) ¿Comparado con el uso de un escáner como este?: dataset.scanner(columns, filter=filter_expression).to_table() ¿O fragmentos?: fragments = dataset.get_fragments(filter=filter_expression) new = ds.dataset(fragments) También observo que tanto los . . . Read more
Tengo un archivo Docker en el que una de las instrucciones es: RUN pip3 install -r requirements.txt Y en mi archivo requirements.txt: … uwsgi==2.0.19.1 cython==0.29 dependency-injector==4.37.0 pyyaml==6.0 apscheduler==3.7.0 pyarrow==5.0.0 … Cuando ejecuto la construcción de Docker, veo que se instala Cython, pero pyarrow aún falla. Encontré este enlace – https://github.com/apache/arrow/issues/2163 . . . Read more