¿Python dataframe o actualización de HiveSql basado en el valor del predecesor?
Tengo un millón de filas que necesito actualizar, buscando el recuento más alto del predecesor de los mismos datos fuente y reemplazando el mismo valor en una fila diferente.
Por ejemplo:
DF original.
sno Object Name shape rating 1 Fruit apple round 1.0 2 Fruit apple round 2.0 3 Fruit apple square 2.5 4 Fruit orange round 1.5
DF objetivo.
sno Object Name shape rating 1 Fruit apple round 1.0 2 Fruit apple round 2.0 3 Fruit apple round 2.5 <– detecta automáticamente la diferencia en la columna de forma y actualiza de cuadrada a redonda 4 Fruit orange round 1.5
Por favor, aconseje como lograrlo en Databricks utilizando PySpark, HiveSQL o Scala.
davy.ai
Para lograr esto en PySpark, se puede usar el siguiente enfoque:
Aquí está el código de PySpark para implementar el enfoque anterior:
Para lograr esto en Hive SQL, se puede usar el siguiente enfoque:
Aquí está el código de Hive SQL para implementar el enfoque anterior:
Para lograr esto en Scala, se puede usar el mismo enfoque que en PySpark:
Aquí está el código en Scala para implementar el enfoque anterior: