Abhya Tripathi
El resumen de documentos es una tarea muy desafiante en la minería de texto. Resumir un documento grande en oraciones cortas y concisas que son un subgrupo del texto inicial se denomina resumen extractivo. Existen varias aplicaciones del resumen de texto, pero aquí los artículos de CNN News se resumen en sus oraciones clave. En este proyecto, se utiliza el algoritmo de modelado de temas Latent Dirichlet Allocation (LDA) para generar un resumen de texto extractivo. Se utiliza para capturar temas importantes del texto y luego, utilizando un mecanismo de ponderación de distribución, se obtienen oraciones del texto. El modelo funciona bien con los datos y obtiene el resumen del artículo de noticias. Esto ayuda a ahorrar tiempo para leer textos o documentos largos. El resumen de documentos es un medio para derivar datos significativos y relevantes del documento y crear una pieza de información completa y significativa. En este proyecto, se lleva a cabo un resumen extractivo de documentos grandes utilizando una lista segmentada de oraciones de documentos y se aplica al algoritmo Latent Dirichlet Allocation (LDA) para extraer los temas principales. Luego, utilizando la frecuencia de palabras de esos temas en oraciones, se extraen las oraciones clave que tienen la distribución más alta para resumir el texto. El informe se estructura a continuación en las siguientes secciones. La revisión de la literatura en la Sección II, que analiza el trabajo de varios autores en relación con el resumen de documentos y LDA. La Sección III especifica la metodología actual implementada utilizando el modelo LDA e incluye el procesamiento de datos. Los resultados empíricos en el modelado de texto y el resumen de documentos se analizan en el segmento IV. Finalmente, la Sección V otorga la conclusión y el alcance futuro. Resumir esta información es de gran importancia y una necesidad. El resumen de documentos se ha convertido en una investigación significativa en las áreas de procesamiento del lenguaje natural (PLN) y big data. El resumen extractivo utilizando el algoritmo LDA de modelado de temas genera con éxito un resumen de oraciones importantes del documento original. También proporciona un buen nivel de diversidad de temas. Más adelante, es posible que deseemos investigar progresivamente trabajos específicos y mejorar aún más la generación de resúmenes y utilizar diversas técnicas de modelado de temas. Asimismo, pretendemos evaluar nuestra forma de tratar con varios dialectos. Existe un alcance futuro para generar resúmenes abstractivos que sean más parecidos a los humanos y requerirán herramientas de aprendizaje automático avanzadas para la generación de lenguaje semántico.