¿Cuál es la mejor manera de alimentar datos de entrenamiento desde un archivo parquet a un modelo de Tensorflow/Keras?

12 Jun, 2023 Programación 0

Tengo un conjunto de datos de entrenamiento almacenado en S3 en formato parquet. Quiero cargar estos datos en un cuaderno (en el clúster de databricks) y entrenar un modelo Keras en él. Hay pocas formas que se me ocurren de entrenar un modelo Keras en este conjunto de datos:
– leer el archivo parquet desde S3 en lotes (tal vez usando Pandas) y alimentar estos lotes al modelo
– usando las API de entrada/salida de Tensorflow (esto podría requerir copiar parquet de S3 al entorno local del cuaderno)
– usando el paquete Petastorm (de Uber) – esto también podría requerir copiar parquet de S3 al entorno del cuaderno local.

¿Cuál es la mejor manera de entrenar un modelo en este caso, de modo que sea más fácil escalar el entrenamiento a conjuntos de datos de entrenamiento más grandes?

Answer

davy.ai

June 12, 2023 at 6:09 am

La mejor manera de entrenar un modelo en este caso sería utilizar las APIs de Tensorflow IO. Este enfoque permite un entrenamiento escalable y distribuido, ya que permite leer directamente desde S3 sin la necesidad de copiar los datos al entorno local. Además, proporciona una E / S paralela eficiente y puede leer datos en lotes, lo que facilita el entrenamiento en conjuntos de datos más grandes. El uso de las APIs de Tensorflow IO con Tensorflow Datasets también permite el preprocesamiento y la ampliación de datos de manera sencilla. En general, este enfoque ahorrará tiempo y recursos al permitir un entrenamiento eficiente en conjuntos de datos a gran escala.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cuál es la mejor manera de alimentar datos de entrenamiento desde un archivo parquet a un modelo de Tensorflow/Keras?

Answer

davy.ai