|
|
| Home >> Working Papers Series >> Jornadas de Tratamiento y Recuperación de la Información >> Clasificación de documentos escritos en euskara: impacto de la lematización |
|
Clasificación de documentos escritos en euskara: impacto de la lematización
Jornadas de Tratamiento y Recuperación de la Información / Departamento de Biblioteconomía y Documentación y Departamento de Informática de la Universidad Carlos III de Madrid Abstract: La clasificación de documentos escritos en euskara es un área en la que podríamos decir, está todo por hacer. Este trabajo pretende establecer las bases de la categorización para, en adelante, ir mejorando los algoritmos y las técnicas a aplicar teniendo en cuenta las características propias de la lengua. El corpus utilizado corresponde a los artículos de prensa publicados durante dos meses de 1999 en el diario "Euskaldunon Egunkaria"; y los algoritmos aplicados han sido Naive Bayes y Winnow. A la vista de los resultados y para intentar mejorarlos, se ha utilizado la técnica de lematización. Los resultados obtenidos nos han demostrado que en general es importante aplicar alguna técnica de reducción de la representación de los documentos a clasificar. Además se observa que la técnica de lematización mejora sensiblemente los resultados. Por otra parte, en cuanto a los algoritmos se refiere, se puede decir que naive bayes responde mejor con el corpus lematizado, es decir, con la información más concentrada y winnow al contrario, no se ve afectado por el ruido en su respuesta.
(go top) |
Last
updated: 2008-05-15 04:02:24 DoIS team
Italian DoIS