Tag: APACHE-SPARK-DATASET
Tengo este código: import pandas as pd import json file = “/Users/mickelborg/Desktop/Dataset/2018/Carbon_Minoxide_(CO)_2018.json” with open(file, ‘r’) as j: contents = json.loads(j.read()) oxide = pd.DataFrame.from_dict(contents, orient=’index’) oxide Estoy tratando de obtener una lectura del dataset JSON por características/columnas, pero parece que no se cargan correctamente. Actualmente, este es el resultado que obtengo: . . . Read more
Me gusta la idea de tener mis datos de acciones históricas almacenados en una base de datos en lugar de un archivo CSV. ¿Existe alguna penalidad en la velocidad al obtener conjuntos de datos grandes de MariaDB en comparación con los archivos CSV?
Construí un paquete .jar de trabajo por lotes de Flink, su tamaño es de 240MB, y tengo que esperar para subirlo cada vez que lo ejecuto en el clúster independiente. ¿Existe alguna forma de ejecutar el trabajo de Flink sin tener que subirlo cada vez?
Tengo un conjunto de datos con esta estructura print(type(test_small_testval)) print((test_small_testval.features)) <class 'datasets.arrow_dataset.Dataset'> {'premise': Value(dtype='string', id=None), 'hypothesis': Value(dtype='string', id=None), 'label': ClassLabel(num_classes=3, names=['entailment', 'neutral', 'contradiction'], names_file=None, id=None)} Puedo acceder a la columna “hypothesis” del conjunto de datos haciendo esto for i in range(len(test_small_testval)): print(test_small_testval['hypothesis'][i]) A modo de ejemplo, los dos primeros elementos . . . Read more
Tengo una gran cantidad de datos que quiero cargar en un Dataset de Tensorflow para entrenar una red LSTM. Quiero utilizar funcionalidad de transmisión en lugar de leer todos los datos en memoria debido al tamaño de mis datos. Me está costando trabajo leer mis datos para que cada muestra . . . Read more