domingo, 9 de febrero de 2014

Introduccion a WordNet

WordNet es una sistema de referencia léxico para el idioma inglés. Su diseño, a diferencia de la mayoría de los diccionarios actuales que organizan las palabras de acuerdo a la manera en que se escriben, esta inspirado en las teorías que sostienen los psico-lingüistas sobre la organización de la memoria léxica en los humanos. En la medida en que se comenzaron a utilizar las computadoras para realizar tareas de los diccionarios, se hizo evidente que con la gran capacidad de cálculo de las mismas, sería un desperdicio contemplar solo la posibilidad de que fueran meras buscadoras por índice, sino que debía incorporársele más funcionalidad y es a esto lo que se orienta esta herramienta.


WordNet fue concebido alrededor del año 1985 cuando un grupo de investigadores del Laboratorio de Ciencias Cognitivas de la Universidad de Princenton se dieron a la tarea de crear una base de datos léxica, que a diferencia de los diccionarios convencionales presenta una organización subdividida en sustantivos, verbos, adjetivos y adverbios. Uno de sus aportes principales fue la creación de los synsets que constituyen conjuntos de palabras cuyo significado es el mismo, o sea, sinónimos. Es necesario aclarar que como una palabra puede tener varios significados, así también puede estar contenida en más de un synset. WordNet almacena además para cada synset una pequeña glosa, texto explicativo del significado del mismo, así como diversas relaciones semánticas.

Sustantivos:

  • Hiperónimos: Y es un hiperonimo de X si cada X es un tipo de Y (Ejemplo: Y=animal, X=perro)
  • Hipónimos: Y es un hipónimo de X si Y es un tipo de X (Ejemplo: Y=perro, X=animal)
  • Terminos Coordinados: X y Z son términos coordinados si comparten un Hiperonimo en común (X=perro, Z=gato, Y=animal)
  • Holónimo: Y es un holónimo de X si X es parte de Y (Ejemplo X=neumático, Y=coche)
  • Merónimo: Y es un jerónimo de X si Y es parte de X (Ejemplo X=coche, Y=neumático)
Verbos:
  • Hiperónimo: Y es un hiperónimo de X si la actividad de X es un tipo de la actividad de Y (Ejemplo X=percibir,Y=oir)
  • Tropónimo: Y es un tropónimo de X si la actividad Y realiza X de alguna forma (Ejemplo: X=balbucear,Y=hablar)
  • Vinculación(entailment): Y esta vinculado con X si para hacer X obligatoriamente se deberá hacer Y (Ejemplo: X=roncar, Y=dormir)
  • Términos coordinados: Y y X son coordinados si tienen un Hiperónimo en común. (Ejemplo: X=susurrar, Y=vocear)

Adjetivos:
  • Sustantivo al que modifican
  • Adjetivos similares
  • Participio del verbo

Adverbios:
  • Adjetivos que lo originan
Por relaciones semánticas en este caso, se entiende una conexión synset-synset con una etiqueta que define el tipo de la relación. Cada synset puede tener varias relaciones de acuerdo a la categoría del mismo, de aquí las relaciones contempladas por WordNet. La estructura del conocimiento almacenado en wordnet varía según la categoría. Los sustantivos y verbos al poseer la relación de hiperonmia o EsUn() pueden ser organizados jerárquicamente. La jerarquía va tendiendo hacia conceptos cada vez más primitivos hasta llegar al nodo raíz.

 dog, domestic dog, Canis familiaris
    => canine, canid
       => carnivore
         => placental, placental mammal, eutherian, eutherian mammal
           => mammal
             => vertebrate, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   => ...

Los que se consideran sinónimos aparecen en el mismo nivel de la jerarquía. Es conocido que el árbol de los sustantivos es bastante profundo pues contiene gran cantidad de términos intermedios cuyo uso práctico es bien limitado, pero que son útiles para la categorización de otros mas usados. Por su parte la de los verbos tiene menos niveles de profundidad.

Para los adjetivos es imposible crear una estructura del conocimiento arbórea debido a que los mismos no poseen la mencionada relación. En lugar de eso, se forman diversos clústeres bipolares en donde son organizados sinónimos y antónimos con respecto a un atributo que los mismos modifican. El ejemplo siguiente corresponde al cluster Wetness y contiene los cúmulos de adjetivos contrarios húmedo/seco.

WET1,DRY1,! bedewed,& boggy,& clammy,& damp,& drenched,&
drizzling,&hydrated,&muggy,& perspiring,& saturated2,&
showery,&tacky,&tearful,& watery2,& WET2,&  
 bedewed,dewy,wet1,& 
 boggy,marshy,miry,mucky, muddy, quaggy, swampy, wet1,&  
 clammy,dank,humid1,wet1,&  
 damp,moist,wet1,& 
 drenched,saturated1,soaked, soaking, soppy, soused, wet1,&  
 drizzling,drizzly,misting, misty, wet1,&  
 hydrated,hydrous,wet1,& ((chem) combined with water molecules)  
 muggy,humid2,steamy,sticky1, sultry, wet1,&  
 perspiring,sweaty,wet1,& 
 saturated2,sodden,soggy,waterlogged, wet1,&  
 showery,rainy,wet1,& 
 sticky2,tacky,undried,wet1,& ("wet varnish")  
 tearful,teary,watery1,wet1,&  
 watery2,wet1,&(filledwith water; "watery soil")    DRY1,WET1,! anhydrous,&arid,&
dehydrated,& dried,& dried-up1,&
dried-up2,&DRY2,&rainless,& thirsty,&  
anhydrous,dry1,&((chem) with all water removed)  
arid,waterless,dry1,& 
dehydrated,desiccated,parched, dry1,&  
dried,dry1,&("theinkis dry")  
dried-up1,dry1,&("adry water hole")  
dried-up2,sere,shriveled, withered, wizened, dry1,&
(usedofvegetation) 
rainless,dry1,& 
thirsty,dry1,&  

Visto todo lo anterior se puede mencionar que una de las principales desventajas atribuidas a WordNet es que a pesar de que presenta una gran cantidad de significados de dominio general, muchas veces es insuficiente cuando trata de aplicarse a un dominio específico debido a que no tiene bien cubierto el mismo. En base a esto se ha apreciado en diversas ocasiones como se ha extendido de cierta manera WordNet mediante la creación de ontologías que la abarcan y añaden conocimientos extra de algún dominio en particular tal es el caso de SENSUS.

Resumiendo al decir de creadores de la herramienta que será detallada a continuación. Word Net es posiblemente el recurso semántico de uso mas extendido por la comunidad de Lingüística computacional en el día de hoy, y todo probablemente por la buena organización de su estructura y su facilidad de uso.

Probar WordNet Online





No hay comentarios:

Publicar un comentario