es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Google Vertex AI Image AutoML Classification cuando una característica importante de la imagen es el texto dentro de la imagen.

Me gustaría hacer clasificación de imágenes. En mi conjunto de datos, a pesar de que las características de las imágenes son un componente importante para esta clasificación (colores, formas, etc.), algunas categorías de imágenes serán difíciles de distinguir sin interpretar el texto dentro de la imagen.

No creo que VertexAI/AutoML use modelos pre-entrenados para facilitar la clasificación si la única diferencia es el texto. Sé que Google Vision/OCR es capaz de extraer dicho texto. Pero ¿hay alguna manera de hacer clasificación de imágenes (VertexAI/AutoML) utilizando la extracción de Google Cloud Vision como una característica adicional de la imagen?

Actualmente, mi proyecto utiliza 3 modelos (sin Google Cloud):
– Modelo 1: clasifica una imagen utilizando características de la imagen
– Modelo 2: clasifica una imagen solo utilizando OCR + regex (mismas categorías)
– Modelo 3: combina ambos modelos y decide cuándo usar el modelo 1 o el modelo 2

Me gustaría cambiar a Vertex AI porque esto mejoraría la calidad de mi proyecto de la siguiente manera:
– La clasificación de AutoML parece muy buena para el modelo 1
– Necesito utilizar una herramienta para gestionar mis conjuntos de datos (conjuntos de datos administrados de Vertex AI)
– Vertex AI tiene características interesantes para el entrenamiento de pipelines

Si se confirma que AutoML no funcionará bien si algunas categorías de imágenes solo difieren en el texto, crearía un sistema similar de 3 modelos utilizando scripts de entrenamiento personalizados de Vertex AI. Puedo crear fácilmente el modelo 1 con VertexAI/AutoML. Sin embargo, no tengo idea de si:
– Puedo crear el modelo 2 con un script de entrenamiento personalizado de Vertex AI utilizando Google Cloud Vision/OCR para realizar la clasificación de imágenes
– Puedo crear el modelo 3 que utilizaría los modelos 1 y 2 creados por Vertex AI.

¿Podría darme recomendaciones sobre cómo lograr esto utilizando Google Cloud Platform?

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Sí, es posible usar las capacidades de extracción de texto de Google Cloud Vision como una característica adicional de imagen para la clasificación de imágenes en VertexAI/AutoML. Puedes extraer las características de texto utilizando Google Cloud Vision y luego utilizarlas como características de entrada para entrenar tu modelo de clasificación de imágenes VertexAI/AutoML junto con otras características de imagen. Esto puede ayudar a mejorar la precisión del modelo de clasificación de imágenes para categorías que son difíciles de distinguir basándose únicamente en características de imagen.

    Para crear el modelo 2 utilizando los scripts de entrenamiento personalizados de VertexAI, puedes utilizar la API de Google Cloud Vision para la extracción de texto y luego entrenar un modelo personalizado utilizando las características de texto extraídas junto con las características de imagen. También puedes crear el modelo 3 utilizando Vertex AI combinando los modelos creados en el modelo 1 y modelo 2.

    Para lograr esto utilizando Google Cloud Platform, puedes seguir estos pasos:

    1. Utiliza la API de Google Cloud Vision para extraer características de texto de tus imágenes.
    2. Crea un conjunto de datos de imágenes con sus correspondientes características de texto y características de imagen (como colores, formas, etc.).

    3. Importa el conjunto de datos en Vertex AI y crea un modelo de clasificación de imágenes personalizado utilizando AutoML. Puedes utilizar las características de texto como características de entrada adicionales junto con otras características de imagen.

    4. Entrena el modelo utilizando el conjunto de datos y evalúa su rendimiento en un conjunto de validación.

    5. Una vez que tengas un modelo entrenado, puedes utilizarlo para hacer predicciones en nuevas imágenes.

    6. Para crear el modelo 2 utilizando los scripts de entrenamiento personalizados de VertexAI, puedes utilizar el mismo conjunto de datos que en el paso 2 y entrenar un modelo personalizado utilizando tu propio script de entrenamiento que utilize la API de Google Cloud Vision para la extracción de texto y combine las características de texto e imagen para la clasificación.

    7. Para crear el modelo 3, puedes combinar los modelos creados en los pasos 3 y 6 para hacer predicciones en nuevas imágenes.

    En resumen, utilizando herramientas de Google Cloud Platform como Vision API, AutoML y scripts de entrenamiento personalizados de VertexAI, puedes crear un sistema de clasificación de imágenes potente que puede manejar categorías difíciles de imágenes que requieran interpretación de texto.

Comments are closed.