es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: FASTPARQUET

¿Cómo escribir un DataFrame de Pandas en un archivo Parquet?

Estoy leyendo datos en fragmentos usando pandas.read_sql y agregándolos a un archivo parquet, pero obtengo errores. Usando pyarrow.parquet: import pyarrow as pa import pyarrow.parquet as pq for chunk in pd.read_sql_query(query, conn, chunksize=10000): table_data = pa.Table.from_pandas(chunk) # convirtiendo el df a arrow pq.write_table(table=table_data, where=file.parquet, use_deprecated_int96_timestamps=True, coerce_timestamps=’ms’, allow_truncated_timestamps=True) Obteniendo el siguiente error: . . . Read more

SQOOP a HIVE en Parquet

SQOOP no puede crear una tabla en formato PARQUET en Hive. sqoop import –connect jdbc:mysql://localhost:3306/sqooppractice –username root –password hortonworks1 -m 1 –delete-target-dir –target-dir /user/hduser/sqoop/importcustomer –driver com.mysql.jdbc.Driver –fetch-size 1000 –table customer –fields-terminated-by ‘~’ –hive-import –hive-database hivepractice –hive-table customer_parquet –as-parquetfile; Error: Causado por: MetaException(mensaje: La tabla hivepractice.customer_parquet no cumple con las comprobaciones . . . Read more

Obteniendo un error al crear una tabla de Hive utilizando una tabla Delta (con formato de parquet como base).

Obtengo una salida extraña cuando intento crear una tabla de Hive sobre Delta. Spark: 2.4.7 Delta: 0.6.1 import java.io.File; import org.apache.spark.{SparkConf, SparkContext}; import org.apache.spark.sql.{SparkSession, SQLContext}; import io.delta.tables.*; import org.apache.spark.sql.functions; spark.conf.set(“spark.databricks.delta.symlinkFormatManifest.fileSystemCheck.enabled”, false); val df1 = “select col1,col2 from table1”; val df2 = spark.sql(sqlText=df_1); df_2.write.format(“delta”).mode(“overwrite”).save(“gs://<path>”); val deltaTable1 = DeltaTable.forPath(“gs://<path>”); deltaTable1.generate(“symlink_format_manifest”); CREATE EXTERNAL . . . Read more

La lectura de un único fragmento de archivos parquet, particionado en una sola parte, resulta en un DataFrame con más particiones.

Contexto Tengo una tabla Parquet almacenada en HDFS con dos particiones, donde cada partición contiene solo un archivo. parquet_table \ | year=2020 \ file_1.snappy.parquet | year=2021 \ file_2.snappy.parquet Mi plan es solo obtener la última partición y trabajar con ella. python df = spark.read.parquet("ruta_hdfs_a_tabla/parquet_table/year=2021/") Esto funciona, solo obtengo los datos . . . Read more