Tag: FASTPARQUET
Estoy leyendo datos en fragmentos usando pandas.read_sql y agregándolos a un archivo parquet, pero obtengo errores. Usando pyarrow.parquet: import pyarrow as pa import pyarrow.parquet as pq for chunk in pd.read_sql_query(query, conn, chunksize=10000): table_data = pa.Table.from_pandas(chunk) # convirtiendo el df a arrow pq.write_table(table=table_data, where=file.parquet, use_deprecated_int96_timestamps=True, coerce_timestamps=’ms’, allow_truncated_timestamps=True) Obteniendo el siguiente error: . . . Read more
SQOOP no puede crear una tabla en formato PARQUET en Hive. sqoop import –connect jdbc:mysql://localhost:3306/sqooppractice –username root –password hortonworks1 -m 1 –delete-target-dir –target-dir /user/hduser/sqoop/importcustomer –driver com.mysql.jdbc.Driver –fetch-size 1000 –table customer –fields-terminated-by ‘~’ –hive-import –hive-database hivepractice –hive-table customer_parquet –as-parquetfile; Error: Causado por: MetaException(mensaje: La tabla hivepractice.customer_parquet no cumple con las comprobaciones . . . Read more
Cuando intento exportar el df con 240,000,000 filas a un archivo parquet, obtengo un error. realloc de tamaño 1073741824 falló. No quiero dividir el archivo. ¿Puedo usar otra solución?
Obtengo una salida extraña cuando intento crear una tabla de Hive sobre Delta. Spark: 2.4.7 Delta: 0.6.1 import java.io.File; import org.apache.spark.{SparkConf, SparkContext}; import org.apache.spark.sql.{SparkSession, SQLContext}; import io.delta.tables.*; import org.apache.spark.sql.functions; spark.conf.set(“spark.databricks.delta.symlinkFormatManifest.fileSystemCheck.enabled”, false); val df1 = “select col1,col2 from table1”; val df2 = spark.sql(sqlText=df_1); df_2.write.format(“delta”).mode(“overwrite”).save(“gs://<path>”); val deltaTable1 = DeltaTable.forPath(“gs://<path>”); deltaTable1.generate(“symlink_format_manifest”); CREATE EXTERNAL . . . Read more
Contexto Tengo una tabla Parquet almacenada en HDFS con dos particiones, donde cada partición contiene solo un archivo. parquet_table \ | year=2020 \ file_1.snappy.parquet | year=2021 \ file_2.snappy.parquet Mi plan es solo obtener la última partición y trabajar con ella. python df = spark.read.parquet("ruta_hdfs_a_tabla/parquet_table/year=2021/") Esto funciona, solo obtengo los datos . . . Read more