Tag: FASTPARQUET

¿Cómo escribir un DataFrame de Pandas en un archivo Parquet?

27 Jul, 2023 Programación 0

Estoy leyendo datos en fragmentos usando pandas.read_sql y agregándolos a un archivo parquet, pero obtengo errores. Usando pyarrow.parquet: import pyarrow as pa import pyarrow.parquet as pq for chunk in pd.read_sql_query(query, conn, chunksize=10000): table_data = pa.Table.from_pandas(chunk) # convirtiendo el df a arrow pq.write_table(table=table_data, where=file.parquet, use_deprecated_int96_timestamps=True, coerce_timestamps=’ms’, allow_truncated_timestamps=True) Obteniendo el siguiente error: . . . Read more

SQOOP a HIVE en Parquet

26 Jul, 2023 Programación 0

SQOOP no puede crear una tabla en formato PARQUET en Hive. sqoop import –connect jdbc:mysql://localhost:3306/sqooppractice –username root –password hortonworks1 -m 1 –delete-target-dir –target-dir /user/hduser/sqoop/importcustomer –driver com.mysql.jdbc.Driver –fetch-size 1000 –table customer –fields-terminated-by ‘~’ –hive-import –hive-database hivepractice –hive-table customer_parquet –as-parquetfile; Error: Causado por: MetaException(mensaje: La tabla hivepractice.customer_parquet no cumple con las comprobaciones . . . Read more

df.to_parquet dando error: la realocación de tamaño 1073741824 falló.

26 Jul, 2023 Programación 0

Cuando intento exportar el df con 240,000,000 filas a un archivo parquet, obtengo un error. realloc de tamaño 1073741824 falló. No quiero dividir el archivo. ¿Puedo usar otra solución?

Obteniendo un error al crear una tabla de Hive utilizando una tabla Delta (con formato de parquet como base).

25 Jul, 2023 Programación 0

Obtengo una salida extraña cuando intento crear una tabla de Hive sobre Delta. Spark: 2.4.7 Delta: 0.6.1 import java.io.File; import org.apache.spark.{SparkConf, SparkContext}; import org.apache.spark.sql.{SparkSession, SQLContext}; import io.delta.tables.*; import org.apache.spark.sql.functions; spark.conf.set(“spark.databricks.delta.symlinkFormatManifest.fileSystemCheck.enabled”, false); val df1 = “select col1,col2 from table1”; val df2 = spark.sql(sqlText=df_1); df_2.write.format(“delta”).mode(“overwrite”).save(“gs://<path>”); val deltaTable1 = DeltaTable.forPath(“gs://<path>”); deltaTable1.generate(“symlink_format_manifest”); CREATE EXTERNAL . . . Read more

La lectura de un único fragmento de archivos parquet, particionado en una sola parte, resulta en un DataFrame con más particiones.

23 Jul, 2023 Programación 0

Contexto Tengo una tabla Parquet almacenada en HDFS con dos particiones, donde cada partición contiene solo un archivo. parquet_table \ | year=2020 \ file_1.snappy.parquet | year=2021 \ file_2.snappy.parquet Mi plan es solo obtener la última partición y trabajar con ella. python df = spark.read.parquet("ruta_hdfs_a_tabla/parquet_table/year=2021/") Esto funciona, solo obtengo los datos . . . Read more

1 2 3 … 10

es.davy.ai

¿Tienes una pregunta?