es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Barrio más cercano utilizando una región de confianza.

Tengo más de 1M de puntos de datos y 32 de ellos (Naranja en la imagen) son mi clase verdadera.
Me gustaría encontrar puntos azules similares a los naranjas.
Los vectores de características son solo incrustaciones.
El enfoque que adopté es construir una región de confianza pseudo-95 y luego marcar los puntos dentro de esa área como mi etiqueta verdadera.
Creo que no puedo usar un algoritmo KNN por las siguientes razones:
* Solo sé de antemano qué puntos pertenecen a la clase positiva.
* KNN estaría muy adaptado ya que solo tengo 32 puntos de datos positivos sobre más de 1M de puntos de datos.
¿Hay algún otro algoritmo o enfoque que se adapte mejor a este problema?

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Dado el número limitado de puntos de datos positivos, el uso de algoritmos tradicionales de aprendizaje supervisado como k-NN puede no ser efectivo, ya que pueden ser propensos al sobreajuste. Un enfoque potencial para este problema es utilizar algoritmos de aprendizaje semi-supervisado, como el autoaprendizaje, co-aprendizaje o métodos basados en múltiples vistas. En el autoaprendizaje, primero se entrena un modelo con los datos etiquetados (32 puntos naranjas) y luego se utiliza para etiquetar los datos no etiquetados. Los datos recién etiquetados se pueden agregar a los datos etiquetados y el proceso se puede repetir. El co-aprendizaje y los métodos basados en múltiples vistas son más complejos pero también pueden ser efectivos en tareas de aprendizaje semi-supervisado.

    Otra opción es utilizar algoritmos de agrupamiento como k-means o agrupamiento jerárquico. Estos algoritmos pueden agrupar puntos de datos similares juntos, proporcionando una forma de identificar grupos de puntos azules que son similares a los puntos naranjas. Una vez identificados estos grupos, se pueden analizar los puntos de datos de cada grupo para determinar su similitud con los datos etiquetados.

    También vale la pena señalar que existen muchas variaciones de k-NN que pueden ser efectivas en este escenario, como k-NN ponderado o k-NN adaptable. Estos métodos pueden mitigar el problema de sobreajuste y están diseñados para trabajar con conjuntos de datos desequilibrados como este.

Comments are closed.