es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK-DATASET

¿Es posible evitar un segundo intercambio cuando Spark une dos conjuntos de datos utilizando joinWith?

Para el siguiente fragmento de código: case class SomeRow(key: String, value: String) spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) val ds1 = Seq(SomeRow(“A”, “1”)).toDS().repartition(col(“key”)) val ds2 = Seq(SomeRow(“A”, “1”), SomeRow(“B”,”2″)).toDS().repartition(col(“key”)) val dataSetJoined = ds1.joinWith(ds2, ds1(“key”)===ds2(“key”), “left”) val dataFrameJoined = ds1.join(ds2, ds1(“key”)===ds2(“key”), “left”) dataSetJoined.explain(true) dataFrameJoined.explain(true) Spark genera el siguiente plan para el dataSet: == Physical Plan . . . Read more

Tomando un subconjunto de filas de un conjunto de datos

‘hypothesis’ es una columna en el crop_dataset que es de tipo searchfor = [‘she’, ‘he’,’his’,’her’,’him’,’boys’,’woman’,’Woman’,’girl’,’men’,’man’,’female’,’girls’] Enfoque de dataframe df_temp = datasets.Dataset.to_pandas(crop_dataset) rows_where_found = df_temp.filter(lambda example: searchfor in example[‘hypothesis’]) retorna vacío ¿Cómo elijo las filas donde aparezca alguna de estas palabras y creo un subconjunto? Ejemplo de datos: print(crop_dataset[‘hypothesis’][0:3]) [‘Una persona . . . Read more

¿Cómo puedo mostrar una predicción utilizando Random Forest?

Mi conjunto de datos de muestra se ve así: Mis características de X_train son 'Gender', 'Age', 'Leisure', 'Married', 'Division' y y_train es 'Online Shopping' La última parte de mi código se ve así: from sklearn.ensemble import RandomForestClassifier #rfc_100 = RandomForestClassifier(n_estimators=100, random_state=0) rfc = RandomForestClassifier(random_state=0) # ajustar el modelo rfc.fit(X_train, y_train) . . . Read more