Wu K, Zhang K, Fan W, Gao J y Edwards A
Un marco eficaz para la clasificación de flujos de datos desequilibrados
La clasificación de flujos de datos con distribución sesgada tiene muchas aplicaciones en entornos realistas; sin embargo, solo unos pocos métodos abordan este problema conjunto de clasificación de flujos de datos y aprendizaje de datos desequilibrados . En este artículo, proponemos un nuevo marco de ponderación de grupos de características dinámicos impulsado por muestreo de importancia (DFGW-IS) para abordar este problema. Nuestro enfoque aborda las características intrínsecas de los datos de flujo desequilibrados y con deriva de conceptos. Específicamente, el concepto en constante evolución es manejado por un conjunto entrenado en un conjunto de grupos de características con cada subclasificador (es decir, un solo clasificador o un conjunto) ponderado por su poder discriminativo y nivel estable. La distribución de clase desigual, por otro lado, es combatida por el subclasificador construido en un grupo de características específico con la distribución subyacente reequilibrada por la técnica de muestreo de importancia. Brindamos el análisis teórico sobre el límite de error de generalización del algoritmo propuesto. Experimentos extensos en múltiples flujos de datos sesgados demuestran que el algoritmo propuesto no solo supera a los métodos competitivos en métricas de evaluación estándar, sino que también se adapta bien en diferentes escenarios de aprendizaje.