[Full Text]

DoIS News
Online reference
Conference Proceedings
Journals List
RSS feeds for LIS journals
About us
New Search
Home >> Working Papers Series >> Jornadas de Tratamiento y Recuperación de la Información >> Clasificación de documentos escritos en euskara: impacto de la lematización

Clasificación de documentos escritos en euskara: impacto de la lematización

Arregi, O
    acparuro@si.ehu.es
    (Universidad del País Vasco, Euskal Herriko Unibertsitatea)
 
Fernández, I.
    idoiazum@si.ehu.es
    (Universidad del País Vasco, Euskal Herriko Unibertsitatea)
 

 

Jornadas de Tratamiento y Recuperación de la Información / Departamento de Biblioteconomía y Documentación y Departamento de Informática de la Universidad Carlos III de Madrid
(ReLIS:doi:jotris:y:2003:p28-35)

Abstract:

La clasificación de documentos escritos en euskara es un área en la que podríamos decir, está todo por hacer. Este trabajo pretende establecer las bases de la categorización para, en adelante, ir mejorando los algoritmos y las técnicas a aplicar teniendo en cuenta las características propias de la lengua. El corpus utilizado corresponde a los artículos de prensa publicados durante dos meses de 1999 en el diario "Euskaldunon Egunkaria"; y los algoritmos aplicados han sido Naive Bayes y Winnow. A la vista de los resultados y para intentar mejorarlos, se ha utilizado la técnica de lematización. Los resultados obtenidos nos han demostrado que en general es importante aplicar alguna técnica de reducción de la representación de los documentos a clasificar. Además se observa que la técnica de lematización mejora sensiblemente los resultados. Por otra parte, en cuanto a los algoritmos se refiere, se puede decir que naive bayes responde mejor con el corpus lematizado, es decir, con la información más concentrada y winnow al contrario, no se ve afectado por el ruido en su respuesta.


Creation: 2003

 (go top)



File-URL: http://www.fundacion.uc3m.es/jotri2003/ponencias/clasificacion.pdf
File-Format: application/pdf


 


  Freely downloadable only

Last updated: 2008-05-15 04:02:24 DoIS team
Italian DoIS