Tag: APACHE-SPARK-DATASET
Tengo un conjunto de datos de imágenes que se ve así: Conjunto de datos El intervalo de tiempo de cada imagen es de 15 minutos (como se puede ver, la marca de tiempo está en el nombre de archivo). Ahora me gustaría agrupar esas imágenes en secuencias de 3 horas . . . Read more
Para el siguiente fragmento de código: case class SomeRow(key: String, value: String) spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) val ds1 = Seq(SomeRow(“A”, “1”)).toDS().repartition(col(“key”)) val ds2 = Seq(SomeRow(“A”, “1”), SomeRow(“B”,”2″)).toDS().repartition(col(“key”)) val dataSetJoined = ds1.joinWith(ds2, ds1(“key”)===ds2(“key”), “left”) val dataFrameJoined = ds1.join(ds2, ds1(“key”)===ds2(“key”), “left”) dataSetJoined.explain(true) dataFrameJoined.explain(true) Spark genera el siguiente plan para el dataSet: == Physical Plan . . . Read more
Estoy usando el dataframe de Pandas; tengo una distribución de partículas, su distancia desde el centro de la distribución y los flujos asociados. Quiero encontrar el flujo total contenido dentro del “radio del medio flujo” (o “radio de la mitad de la luz”), que es el radio que encierra la . . . Read more
‘hypothesis’ es una columna en el crop_dataset que es de tipo searchfor = [‘she’, ‘he’,’his’,’her’,’him’,’boys’,’woman’,’Woman’,’girl’,’men’,’man’,’female’,’girls’] Enfoque de dataframe df_temp = datasets.Dataset.to_pandas(crop_dataset) rows_where_found = df_temp.filter(lambda example: searchfor in example[‘hypothesis’]) retorna vacío ¿Cómo elijo las filas donde aparezca alguna de estas palabras y creo un subconjunto? Ejemplo de datos: print(crop_dataset[‘hypothesis’][0:3]) [‘Una persona . . . Read more
Mi conjunto de datos de muestra se ve así: Mis características de X_train son 'Gender', 'Age', 'Leisure', 'Married', 'Division' y y_train es 'Online Shopping' La última parte de mi código se ve así: from sklearn.ensemble import RandomForestClassifier #rfc_100 = RandomForestClassifier(n_estimators=100, random_state=0) rfc = RandomForestClassifier(random_state=0) # ajustar el modelo rfc.fit(X_train, y_train) . . . Read more