Búsqueda eficaz de información en la web

En los últimos años, en especial desde la aparición de los computadores personales, la cantidad de información digital generada y almacenada ha crecido de forma vertiginosa, alcanzando niveles jamás conseguidos con anterioridad. Con la aparición de Internet, y en particular con el uso generalizado de las páginas Web, se abre la posibilidad de acceder (habitualmente de forma gratuita) a toda esa información generada, que puede ser vista como una base de datos distribuida, dónde la mayoría de la información se almacena en forma de texto (esto está cambiando rápidamente hacia la información multimedia), en multitud de lenguas y formatos, y que hoy por hoy ya tiene un tamaño inmanejable en su totalidad.

Diversas estimaciones fiables indican que en la última década es accesible en la Web un volumen de datos mayor a toda la información generada por la humanidad desde la antigüedad hasta el final del siglo xx. Gestionar toda esta información representa un gran desafío científico y tecnológico en muchos aspectos, en particular para manipular, buscar y recuperar la información y el conocimiento contenido, teniendo en cuenta que los datos que provienen de la Web no sólo contemplan el contenido de las páginas y los enlaces entre ellas, sino que también pueden incluir ficheros (logs) sobre el uso de la mismas. Se podría decir entonces que la Web es una estructura de grafo (enlaces) con un nivel de conectividad muy alto, diferentes “categorías” de nodos con contenidos muy heterogéneos y poco estructurados (texto, multimedia, etcétera), donde resulta impracticable cualquier intento de estandarización masivo y cuyos datos lejos de ser estáticos, son tremendamente cambiantes en el tiempo.

Los motores de búsqueda comerciales actuales (con Google a la cabeza) suelen ser muy eficientes, pero los resultados que proporcionan no suelen ser plenamente satisfactorios (relevantes) para los usuarios (demasiada información no buscada o errónea, falta de información relacionada recuperada). Además, recientemente se ha generalizado el uso de las denominadas “redes sociales” (Facebook…), que permiten el envío de mensajes, los foros de opinión, compartir información multimedia, realización de actividades en grupo, etcétera, que deben cambiar radicalmente la filosofía de los sistemas de búsqueda y acceso a la información/ conocimiento/opiniones/comportamientos contenidos, ya que no sólo se manejan contenidos “descriptivos” (como es habitual en la Web), sino que las “conversaciones”, comportamientos y opiniones almacenadas, gestionadas de forma “inteligente” pueden suministrar un conocimiento muy valioso en cuanto a tendencias, intenciones, aspiraciones… de la sociedad en su conjunto o de determinados ámbitos del comportamiento social.

El procesamiento inteligente del lenguaje natural juega un papel primordial en la mejora de la eficacia en el uso de las herramientas disponibles para el acceso y la búsqueda de información en la Web, tanto desde el punto de vista del propio usuario como del de las propias herramientas, que de una forma automática o semi-automática pueden proporcionar ayudas muy apreciables (por ejemplo usando sinónimos a las palabras contenidas en nuestra petición de búsqueda) ya que habitualmente los sistemas comerciales de búsqueda sólo contemplan aspectos lexicográficos en el lenguaje (tanto en el de los documentos almacenados como en el de las propias consultas) y se olvidan de sus aspectos semánticos.

Por todo lo anteriormente reflejado, en este trabajo se describe someramente lo que es un Sistema de Recuperación de Información, para posteriormente poder profundizar en algunos aspectos específicos.

Se presentan las herramientas de búsqueda Web más usadas actualmente, haciendo especial hincapié en los buscadores y en los metabuscadores, con el fin de proporcionar ciertos “trucos” para ayudar a mejorar nuestro acceso y búsqueda en los contenidos de la Web (por ejemplo explicando el uso de algunos operadores de búsqueda, cómo funcionan los algoritmos de ranking, como mejorar la posición de una página Web en los buscadores o cuáles son las peculiaridades de las arquitecturas computacionales de algunos motores de búsqueda).

Finalmente, se propone el desarrollo y pruebas de mecanismos más “inteligentes” de acceso, búsqueda, gestión y recuperación de información y conocimiento contenidos en la Web. Para ello se muestra el uso de técnicas avanzadas de Inteligencia Artificial, en particular aquellas más cercanas a la manipulación del lenguaje natural y al comportamiento humano.

Sistemas de recuperación de información

Habitualmente, un sistema de recuperación de información es definido como el proceso que trata la representación, almacenamiento, organización y acceso de elementos de información (Salton, 83). Es decir, es un sistema capaz de almacenar, recuperar y mantener información (Kowalsky, 97).

Pero podríamos plantearnos qué representa el concepto de información en este contexto. Se entiende por información cualquier elemento susceptible de ser recuperado, lo que incluye principalmente texto (incluidos números y fechas), imágenes, audio, video y otros objetos multimedia (Kowalsky, 97). Pero el tipo principal de objeto recuperable, hasta el momento siempre ha sido el texto, motivado especialmente por su facilidad de manipulación en comparación con los objetos multimedia, especialmente en lo que se refiere a capacidad de cómputo. Actualmente están surgiendo muchos sistemas que tratan de gestionar este tipo de objetos (diversos buscadores comerciales incluyen buscadores de imágenes), aunque de momento simplemente buscan en el texto de las etiquetas de dichos objetos multimedia, sin escudriñar realmente su contenido interno, lo que suele dar frecuentemente origen a engaños o falsos etiquetados.

En los sistemas de recuperación de información no se suele trabajar directamente con los documentos de texto sino con representaciones más estructuradas de los mismos. La forma de representar los documentos determina en gran medida las características del resto de elementos del sistema.

Los modelos de representación de documentos clásicos se basan generalmente en el modelo booleano o en el modelo vectorial. En el primero, cada documento es representado por un vector donde cada posición se corresponde con cada uno de los términos susceptibles de aparecer en el documento y el valor de cada posición será 0 ó 1 según ese término aparezca o no en ese documento. La esencia del modelo vectorial es similar, salvo que el contenido de cada componente representa algún valor que tiene que ver con la frecuencia de aparición de ese término en el documento.

Claramente, estos modelos de representación de documentos son adecuados para documentos de texto, que pueden ser por ejemplo páginas Web u otros objetos (como elementos multimedia) que estén descritos de forma textual. Quizá el concepto más importante en recuperación de información es el de relevancia. Tiene que ver con cómo medir la satisfacción de un usuario con los resultados devueltos por el sistema ante una determinada pregunta (query).

Esta medida es claramente subjetiva, ya que ante una misma query y el mismo resultado (documento o lista ordenada de documentos), la relevancia puede ser totalmente distinta para dos usuarios diferentes, e imposible de medir de forma precisa. Esta es una de las razones por las que cada vez se tiene más en cuenta el papel del usuario en los sistemas de recuperación de información: si se conocen los intereses de los usuarios el sistema puede “guiar” la búsqueda de información hacia los mismos. Un ejemplo: Supongamos que dos usuarios diferentes (U1 y U2) introducen la consulta “monitor barato” en un buscador Web comercial. Si U1 habitualmente hace búsquedas en páginas de gimnasios y deportes y U2 lo hace en páginas de productos informáticos, lo más probable es que U1 esté buscando entrenadores baratos y U2 pantallas de ordenador baratas.

Si se hubiesen “almacenado” de alguna forma estos “perfiles de usuario”, estas dos búsquedas podrían haber sido guiadas de formas totalmente diferentes y la relevancia de los resultados para cada usuario hubiera aumentado significativamente.

Además, este ejemplo pone de manifiesto uno de los principales problemas de la recuperación de información, que es la propia complejidad del lenguaje natural, eje central de este trabajo. La palabra “monitor” es polisémicas, lo que dificulta enormemente la tarea de recuperación de información cuando es usada.

SIGUE APRENDIENDO DESCARGANDO EL ARCHIVO