Mansi Priya
Hoy en día, los algoritmos son como palabras de moda. Todo el mundo está aprendiendo diferentes tipos de algoritmos: regresión logística, bosques aleatorios, árboles de decisión, SVM, algoritmos de aumento de gradiente, redes neuronales, etc. Todos los días se crean nuevos algoritmos. Pero la ciencia de datos no se trata solo de aplicar diferentes algoritmos a los datos. Antes de aplicar cualquier algoritmo, debes comprender tus datos porque eso te ayudará a mejorar el rendimiento de tus algoritmos más adelante. Para cualquier problema, es necesario iterar sobre los mismos pasos: preparación de datos, planificación de modelos, construcción de modelos y evaluación de modelos, para mejorar la precisión. Si saltamos directamente a la construcción de modelos, terminamos sin dirección después de una iteración. A continuación, se muestran algunos pasos definidos por mí para abordar cualquier problema de aprendizaje automático: El primer paso que sugiero es comprender tu problema correctamente con un buen conocimiento del mercado empresarial. No existe un escenario como: aquí están los datos, aquí está el algoritmo y ¡Bam! Una comprensión adecuada del negocio te ayudará a manejar los datos en los próximos pasos. Por ejemplo, si no tienes idea sobre el sistema bancario, no entenderás si una característica como el ingreso del cliente debería incluirse o no. El siguiente paso es recopilar datos relevantes para tu problema. Además de los datos que tienes internamente en tu empresa, también deberías agregar una fuente de datos externa. Por ejemplo, para la predicción de ventas, deberías comprender el escenario de mercado para las ventas de tu producto. El PIB puede afectar tus ventas o puede afectar la población. Por lo tanto, recopila ese tipo de datos externos. También recuerda el hecho de que cualquier dato externo que uses debe estar disponible para ti en el futuro cuando se implemente tu modelo. Por ejemplo, si usas la población en tu modelo, el próximo año también deberías poder recopilar estos datos para obtener predicciones para el próximo año. He visto a muchas personas que solo usan sus datos internos sin darse cuenta de la importancia de los datos externos para su conjunto de datos. Pero en realidad, las características externas tienen un buen impacto en nuestro caso de uso. Ahora, cuando hayas recopilado todos los datos relevantes para tu problema, debes dividirlos para la capacitación y la prueba. Muchos científicos de datos siguen la regla 70/30 para dividir los datos en dos partes: conjunto de entrenamiento y conjunto de prueba. Mientras que muchos siguen la regla 60/20/20 para dividir los datos en tres partes: conjunto de entrenamiento, conjunto de prueba y conjunto de validación. Prefiero la segunda opción porque en este caso se utiliza el conjunto de prueba para mejorar el modelo y el conjunto de validación para la verificación final del modelo en un escenario real. con él. Estaba trabajando en un problema de predicción de préstamos predeterminados. Mi precisión fue del 78%. Llevé mi problema a la persona que manejaba los sistemas financieros relacionados con los préstamos.