jueves, 1 de agosto de 2013

Obteniendo un listado de palabras en idioma español


Como parte de uno de los proyectos personales en los que me encuentro enrolado actualmente tuve la necesidad de disponer de un listado de palabras lo mas completo posible del idioma español. Un listado como este, sirve para mucho, desde el análisis estadístico de las mismas, hasta ser fuente de diversión, usado en un juego. 

En una búsqueda preliminar encontré algunos, aunque bastante incompletos. Otros eran solo lemarios, o sea, que no llegaban a incluir variantes como las distintas conjugaciones de los verbos (lo cual consideraba prioritario para mi proyecto), sino simplemente el lema de los mismos, debiendo ser expandido este mediante un algoritmo posterior. 

Partiendo de estas fuentes, y habiendo comprobado la efectividad de correctores ortográficos como el Chrome decidí crearme uno propio. A estos recursos con que ya contaba añadí el siguiente listado que de la dirección publica del código de Chrome extraje y luego de un pre-procesado mediante un script de Groovy (github) , ha quedado listo para usarse en lo que sea necesario.

Enlace a 110419 palabras

No hay comentarios:

Publicar un comentario