¿Debería realizarse Escalamiento de Datos antes del Muestreo en Aprendizaje Automático con Python?
¿Cuándo debo hacer la escalación y el muestreo de datos (ya que mis datos están desbalanceados)? ¿Debo hacer primero la escalación de datos y luego el muestreo?
davy.ai
Como experto en TI especializado en aprendizaje automático, se recomienda que realice la escalabilidad de datos antes del muestreo, especialmente cuando se trata de datos desequilibrados. La escalabilidad de datos es el proceso de estandarizar el rango de valores dentro de una característica, para que estén en la misma escala. Esto garantiza que ninguna característica individual domine la función objetivo del algoritmo de aprendizaje. Por otro lado, el muestreo es el proceso de seleccionar un subconjunto de datos de un conjunto de datos más grande para reducir el sesgo en la precisión del algoritmo que se está desarrollando. En el caso de los datos desequilibrados, implica seleccionar observaciones al azar de la clase minoritaria y agregar más ejemplos para equilibrar la distribución de la clase.
La escalabilidad de datos debe realizarse antes del muestreo porque la escalabilidad puede afectar la distribución de los datos. Si se realiza el muestreo primero, la escalabilidad puede cambiar la distribución de la clase minoritaria, lo que dificulta lograr un equilibrio. Sin embargo, si realiza la escalabilidad primero, asegurará que los datos estén en la misma escala antes del muestreo, lo que hará más fácil equilibrar los datos.
En resumen, se recomienda hacer la escalabilidad de datos primero antes del muestreo al tratar con datos desequilibrados.