Tag: ARCHIVE

Iceberg: Cómo recorrer rápidamente una tabla muy grande

06 Aug, 2023 Programación 0

Soy nuevo en Iceberg y tengo una pregunta sobre cómo consultar una tabla grande. Tenemos una tabla Hive con un total de 3,6 millones de registros y 120 campos por registro, y queremos transferir todos los registros de esta tabla a otras bases de datos, como pg, kafka, etc. Actualmente . . . Read more

Cómo convertir una marca de tiempo de Unix en Hive a una marca de tiempo de Unix en Spark en el formato “yyyy-MM-ddTHH:mm:ss.SSSZ”.

05 Aug, 2023 Programación 0

Una de mis tablas contiene columnas de fecha con el formato yyyy-MM-ddTHH:mm:ss.SSSZ y necesito convertir esto al formato yyyy-MM-dd HH:mm:ss. Puedo hacer esto en Hive, pero cuando intento hacerlo en Spark, arroja un error. Hive: sql select order.admit_date, from_unixtime(unix_timestamp(order.ADMIT_DATE, ‘yyyy-MM-dd\’T\’HH:mm:ss.SSS\’Z\”), ‘yyyy-MM-dd HH:mm:ss’) as ADMIT_DATE from daily_orders order; “`lang-text admit<em>date admit</em>date . . . Read more

¿Existe alguna alternativa más rápida para Pandas Data Frame en consultas de HIVE?

04 Aug, 2023 Programación 0

Estoy utilizando la siguiente consulta en Hive: cur.execute(‘select * from nombre_tabla’) y obteniendo los datos en un dataframe de pandas: output_dataframe = pd.DataFrame(cur.fetchall(), columns=colname) Las tablas en las que suelo trabajar generalmente tienen de 1 millón a más de 80 millones de filas/registros, y el código funciona bien para tablas . . . Read more

Hive no se está iniciando

04 Aug, 2023 Programación 0

Estoy tratando de iniciar Hive en mi sistema Linux. Da el siguiente error: Excepción en el subproceso “main” java.lang.ExceptionInInitializerError at org.apache.hadoop.hive.ql.plan.TableDesc.setProperties(TableDesc.java:133) at org.apache.hadoop.hive.ql.plan.TableDesc.<init>(TableDesc.java:71) at org.apache.hadoop.hive.ql.plan.PlanUtils.getDefaultTableDesc(PlanUtils.java:458) at org.apache.hadoop.hive.ql.exec.Utilities.<clinit>(Utilities.java:681) at org.apache.hadoop.hive.ql.session.SessionState.createRootHDFSDir(SessionState.java:709) at org.apache.hadoop.hive.ql.session.SessionState.createSessionDirs(SessionState.java:654) at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:586) at org.apache.hadoop.hive.ql.session.SessionState.beginStart(SessionState.java:553) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:750) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:686) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:568) at org.apache.hadoop.util.RunJar.run(RunJar.java:323) . . . Read more

Problemas de formato de fecha truncada en Hive

04 Aug, 2023 Programación 0

Estoy tratando de convertir la lógica de migración de GP a Hive, pero la siguiente declaración está dando una salida incorrecta al ejecutar la consulta: select (date_trunc(‘Month’,’2022-01-04′::date) – interval ‘0 Month + 1 day’)::date Salida para GP: 2021-12-31 Similar si convertimos la consulta a Hive: select cast(date_add(add_months(trunc(cast(‘2022-01-04’ as date), ‘MM’), . . . Read more

1 2 … 24

es.davy.ai

¿Tienes una pregunta?

Tag: ARCHIVE

Iceberg: Cómo recorrer rápidamente una tabla muy grande

Cómo convertir una marca de tiempo de Unix en Hive a una marca de tiempo de Unix en Spark en el formato “yyyy-MM-ddTHH:mm:ss.SSSZ”.

¿Existe alguna alternativa más rápida para Pandas Data Frame en consultas de HIVE?

Hive no se está iniciando

Problemas de formato de fecha truncada en Hive