Introducción a los Datos Desbalanceados
Lo ideal sería encontrar, dentro de un proceso de clasificación, una clase o una variable a predecir que tenga los mismos números de individuos dentro de cada uno del conjunto de elementos que utilizamos como predictores en sus variables, tratando de que al menos sea un cincuenta-cincuenta.
En la realidad, tenemos cierto tipo de operaciones en las cuales es muy difícil que esto se produzca. De por sí, este ejemplo de que sea balanceado es, a veces, casi imposible de obtener. Sin embargo, muchas veces lo encontramos, como en el dataset de iris, donde la clasificación está hecha cincuenta-cincuenta-cincuenta en las observaciones.
Soluciones de Oversampling y Undersampling
Allí encontramos una clase desbalanceada. Aquí es cuando comenzamos a estimar que pueden haber dos posibles soluciones al respecto de estas clases balanceadas. ¿Cuáles son esos dos posibles escenarios?
Oversampling
Undersampling
En el oversampling, genero datasets cercanos o duplicados de los valores originales de la clase minoritaria, haciendo que el número crezca hasta el tamaño de la clase mayoritaria. En el undersampling, obtengo una muestra de la clase mayoritaria para que quede cercana al tamaño de la clase minoritaria.
#machinelearning hashtag#datascience hashtag#ai hashtag#python
11 июл 2024