es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Podemos utilizar datos directamente de RDS o de un DataFrame (df) como fuente de datos para el trabajo de entrenamiento en Sagemaker, en lugar de tomarlos de s3 o EFS?

Estoy utilizando la plataforma Sagemaker para el desarrollo y despliegue del modelo. Los datos se leen de las tablas de RDS y luego se dividen en los dataframes de entrenamiento y prueba.
Para crear el trabajo de entrenamiento en Sagemaker, descubrí que solo acepta fuentes de datos como s3 y EFS. Por eso, necesito guardar los datos de entrenamiento y prueba de vuelta en s3, lo cual repite el proceso de almacenamiento de datos en RDS y s3.
Me gustaría pasar directamente el dataframe de RDS como un parámetro en el código del trabajo de entrenamiento. ¿Existe alguna forma de pasar el dataframe en el método fit?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Desafortunadamente, no es posible pasar dataframes como parámetros en el método fit de Sagemaker. El método fit solo acepta rutas de S3 o rutas de EFS como fuente de datos de entrada.

    En tu caso, como estás leyendo datos de tablas RDS, deberás guardar los datos en S3 antes de entrenar tu modelo en Sagemaker. Esto puede parecer un proceso redundante, pero es necesario ya que el entorno de Sagemaker requiere que los datos se almacenen en un formato específico y en una ubicación específica para un procesamiento eficiente.

    Una opción alternativa es utilizar AWS Glue para extraer datos de las tablas RDS y almacenarlos en S3. AWS Glue es un servicio totalmente administrado de ETL (Extract, Transform, Load) que facilita el movimiento de datos entre diferentes almacenes de datos. Una vez que los datos están almacenados en S3, se pueden utilizar fácilmente para entrenar tu modelo en Sagemaker.

Comments are closed.