Tag: APACHE-SPARK-DATASET

¿Las características del conjunto de datos JSON no se están cargando correctamente?

13 Jul, 2023 Programación 0

Tengo este código: import pandas as pd import json file = “/Users/mickelborg/Desktop/Dataset/2018/Carbon_Minoxide_(CO)_2018.json” with open(file, ‘r’) as j: contents = json.loads(j.read()) oxide = pd.DataFrame.from_dict(contents, orient=’index’) oxide Estoy tratando de obtener una lectura del dataset JSON por características/columnas, pero parece que no se cargan correctamente. Actualmente, este es el resultado que obtengo: . . . Read more

Velocidad – CSV vs MariaDB obteniendo datos de stock (python)

13 Jul, 2023 Programación 0

Me gusta la idea de tener mis datos de acciones históricas almacenados en una base de datos en lugar de un archivo CSV. ¿Existe alguna penalidad en la velocidad al obtener conjuntos de datos grandes de MariaDB en comparación con los archivos CSV?

Cómo ejecutar repetidamente un trabajo de Flink con una carga de archivo única?

13 Jul, 2023 Programación 0

Construí un paquete .jar de trabajo por lotes de Flink, su tamaño es de 240MB, y tengo que esperar para subirlo cada vez que lo ejecuto en el clúster independiente. ¿Existe alguna forma de ejecutar el trabajo de Flink sin tener que subirlo cada vez?

Reemplazo de palabras mediante regex en un conjunto de datos sin cambios en el resultado.

13 Jul, 2023 Programación 0

Tengo un conjunto de datos con esta estructura print(type(test_small_testval)) print((test_small_testval.features)) <class 'datasets.arrow_dataset.Dataset'> {'premise': Value(dtype='string', id=None), 'hypothesis': Value(dtype='string', id=None), 'label': ClassLabel(num_classes=3, names=['entailment', 'neutral', 'contradiction'], names_file=None, id=None)} Puedo acceder a la columna “hypothesis” del conjunto de datos haciendo esto for i in range(len(test_small_testval)): print(test_small_testval['hypothesis'][i]) A modo de ejemplo, los dos primeros elementos . . . Read more

Cómo transmitir datos en forma de múltiples archivos (b, t, f) en un conjunto de datos de Tensorflow.

12 Jul, 2023 Programación 0

Tengo una gran cantidad de datos que quiero cargar en un Dataset de Tensorflow para entrenar una red LSTM. Quiero utilizar funcionalidad de transmisión en lugar de leer todos los datos en memoria debido al tamaño de mis datos. Me está costando trabajo leer mis datos para que cada muestra . . . Read more

1 … 8 9 10 … 14

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK-DATASET

¿Las características del conjunto de datos JSON no se están cargando correctamente?

Velocidad – CSV vs MariaDB obteniendo datos de stock (python)

Cómo ejecutar repetidamente un trabajo de Flink con una carga de archivo única?

Reemplazo de palabras mediante regex en un conjunto de datos sin cambios en el resultado.

Cómo transmitir datos en forma de múltiples archivos (b, t, f) en un conjunto de datos de Tensorflow.