Tag: APACHE-SPARK-DATASET

Cómo dividir un conjunto de datos de imágenes grandes en grupos de imágenes y guardarlos en subcarpetas utilizando Python?

15 Jul, 2023 Programación 0

Tengo un conjunto de datos de imágenes que se ve así: Conjunto de datos El intervalo de tiempo de cada imagen es de 15 minutos (como se puede ver, la marca de tiempo está en el nombre de archivo). Ahora me gustaría agrupar esas imágenes en secuencias de 3 horas . . . Read more

¿Es posible evitar un segundo intercambio cuando Spark une dos conjuntos de datos utilizando joinWith?

14 Jul, 2023 Programación 0

Para el siguiente fragmento de código: case class SomeRow(key: String, value: String) spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) val ds1 = Seq(SomeRow(“A”, “1”)).toDS().repartition(col(“key”)) val ds2 = Seq(SomeRow(“A”, “1”), SomeRow(“B”,”2″)).toDS().repartition(col(“key”)) val dataSetJoined = ds1.joinWith(ds2, ds1(“key”)===ds2(“key”), “left”) val dataFrameJoined = ds1.join(ds2, ds1(“key”)===ds2(“key”), “left”) dataSetJoined.explain(true) dataFrameJoined.explain(true) Spark genera el siguiente plan para el dataSet: == Physical Plan . . . Read more

Dataframe de Panda de distribución de partículas: agrupar por ID y encontrar el flujo medio y el radio de flujo medio.

14 Jul, 2023 Programación 0

Estoy usando el dataframe de Pandas; tengo una distribución de partículas, su distancia desde el centro de la distribución y los flujos asociados. Quiero encontrar el flujo total contenido dentro del “radio del medio flujo” (o “radio de la mitad de la luz”), que es el radio que encierra la . . . Read more

Tomando un subconjunto de filas de un conjunto de datos

13 Jul, 2023 Programación 0

‘hypothesis’ es una columna en el crop_dataset que es de tipo searchfor = [‘she’, ‘he’,’his’,’her’,’him’,’boys’,’woman’,’Woman’,’girl’,’men’,’man’,’female’,’girls’] Enfoque de dataframe df_temp = datasets.Dataset.to_pandas(crop_dataset) rows_where_found = df_temp.filter(lambda example: searchfor in example[‘hypothesis’]) retorna vacío ¿Cómo elijo las filas donde aparezca alguna de estas palabras y creo un subconjunto? Ejemplo de datos: print(crop_dataset[‘hypothesis’][0:3]) [‘Una persona . . . Read more

¿Cómo puedo mostrar una predicción utilizando Random Forest?

13 Jul, 2023 Programación 0

Mi conjunto de datos de muestra se ve así: Mis características de X_train son 'Gender', 'Age', 'Leisure', 'Married', 'Division' y y_train es 'Online Shopping' La última parte de mi código se ve así: from sklearn.ensemble import RandomForestClassifier #rfc_100 = RandomForestClassifier(n_estimators=100, random_state=0) rfc = RandomForestClassifier(random_state=0) # ajustar el modelo rfc.fit(X_train, y_train) . . . Read more

1 … 7 8 9 … 14

es.davy.ai

¿Tienes una pregunta?