miércoles, 30 de marzo de 2011

¿Cómo funciona un buscador?

Como prometía en el post anterior, el presente artículo corre a cargo de D. Juan Cabezas, Ingeniero de Telecomunicaciones y amante de la Historia. Cuando sepamos cómo funciona un buscador, podremos entender mejor el siguiente artículo del mismo llamado "¿Cómo hacer búsquedas eficaces en Internet?", cosa que a todos nos interesa y pocos hacen bien.

Disfrutadlo y aprendamos todos un poco de él
________________________________________________________________________

Todavía hay mucha gente que ofrece contenidos por el mero placer de saber que la información puede resultar útil a otras personas.
                     Vinton Cerf
            (científico de computación y uno de los padres de Internet)

Según la empresa de estadísticas para servicios online RJMetrics, la humanidad, en 2002, generó 23 exabytes de información; a día de hoy (Febrero 2011), registramos y transmitimos esa información cada semana [1].

Supongo que el término exabyte ha dejado a muchos lectores fuera de juego. Todos conocemos el término kilobyte, megabyte, gigabyte, e incluso estamos familiarizándonos ya con el terabyte. Un exabyte (cuyo símbolo es EB) es, según su definición, 1018 bytes, es decir, 1.000.000.000.000 (¡un billón!) de megabytes. Curiosamente, a pesar de estas cifras, según un reciente estudio de la universidad de Carolina del Sur, solo un 8% de la información está en Internet. El 92% restante no se encuentra en red, si no en papel, fotografías, discos y cintas, emisiones de radio y televisión, chips de tarjetas bancarias, etc. [2]

Aunque estos estudios puedan ser matizables, como mínimo nos llevan a reflexionar. Entre este ya inmenso, y creciente, mar de datos, hemos de localizar la información que nos interesa. Esta distinción entre información y datos es importante. Simplificando, si yo digo que la población de Kenya es de unos 35 millones de habitantes, esto es un dato: por sí solo no nos aporta nada. Pero si yo este dato lo manejo dentro de un contexto donde tiene utilidad para mí (supongamos un examen sobre geografía), pasa a ser información.

Por tanto, volviendo al párrafo inicial, podemos matizar que de los 23 EB semanales mencionados, para un individuo en concreto la inmensa mayoría son datos, y solo una pequeña parte será información relevante para él. De hecho, los datos que aparecen intercalados entre la información para nosotros relevante podemos considerarlos ruido.

Así pues, solo una parte de esta inmensidad de datos es información útil para nosotros, y hemos de localizarla. En Internet, o en los distintos repositorios electrónicos al efecto (de bibliotecas, hemerotecas, redes privadas, etc.), dependemos de los buscadores para lograrlo. Entre ellos destaca sobre todo Google, pero existen más: Bing, Yahoo, Ask, Altavista, etc. Su funcionamiento a grandes rasgos, es, en todo caso, el mismo.

Lo principal a la hora de entender su funcionamiento es conocer, a grandes rasgos, sus partes:

1.     El robot, también llamado crawler, araña o spider:

      No, no se trata de una simpática máquina antropomorfa, ni siquiera con forma de arácnido. Es una combinación de hardware y software que, de forma automática y con regularidad, “recorre” la red (se entiende ahora el nombre mucho mejor, ¿verdad?) y recopila toda la información posible sobre las distintas páginas. Hay que tener en cuenta que mucha información no es procesable, o lo es con matices.

2.     Índice y datacenter

      Como resultado del proceso se produce la indexación: el crawler obtiene una serie de páginas, nuevas o modificadas, que se añaden al índice. Éste es una estructura de datos que recopila aquellos enviados por el crawler, y que está diseñada para que las búsquedas se puedan resolver del modo más rápido posible. Estos índices, o catálogos, es donde reside la infraestructura técnica del buscador, es decir, los datacenters. Visualmente son impresionantes salas habilitadas al efecto, muy seguras, llenas de servidores, ordenadores y otros dispositivos complementarios, y dotadas de sistemas antiincendios, de refrigeración por el calor que generan tantas máquinas juntas, etc. Este de Google resulta particularmente llamativo, ya que en lugar de una sala es un edificio completo optimizado a estos efectos: 





3.     Algoritmos

      Una vez que tenemos un inmenso índice, ¿cómo saber qué páginas son relevantes para la búsqueda que el usuario está realizando? Esto se consigue analizando no solo las palabras y temática de las páginas indexadas, si no también su relevancia. Y determinar esta relevancia, señoras y señores, es algo así como dar con la fórmula de la Coca Cola. El método empleado por cada buscador para lograr esto y ofrecer al usuario la lista de páginas que encajan con su búsqueda es un algoritmo basado en complejas fórmulas matemáticas, y que está en continua adaptación.

El más reputado a día de hoy es el llamado PageRank de Google, y es el mayor secreto de la compañía, aunque se sabe que se basa en el número de enlaces que apuntan a una determinada página: cuantos más apunten a la misma, mejor puntuación obtiene. Este algoritmo es el que determina, en cada búsqueda, en qué orden aparecen las páginas en pantalla como respuesta a la búsqueda, por lo que es crucial su diseño para el usuario, a fin de que encuentre lo antes posible la información que busca, y para el buscador, pues en él se basa su prestigio y, a su vez, su principal fuente de ingresos: la publicidad.

4.     Caja de búsqueda y página de resultados

Esta es la parte que el usuario ve en pantalla. Con lo que puede interactuar. La caja de búsqueda no es más que la interfaz donde escribimos las palabras sobre las que queremos hacer la búsqueda; lo normal es que se pueda configurar la misma, con distintas opciones sobre idiomas, páginas a excluir o incluir en la búsqueda, etc. Esta interfaz envía consulta al índice sobre las palabras buscadas, dándonos éste la respuesta en décimas de segundo.

La página de resultados es la respuesta del buscador, es decir, la lista de enlaces que mejor se ajustan a nuestra búsqueda, ordenadas según el algoritmo. Normalmente también se pueden realizar distintos filtros sobre esta lista, como por ejemplo, para ver sólo páginas creadas o actualizadas en determinadas fechas.

Una vez conocida la estructura interna de los buscadores, ya tenemos una idea de por qué nos ofrece determinados resultados. Pero ninguno es infalible, y tal vez la información que estamos buscando no nos aparece en los primeros enlaces. Ahora que conocemos lo básico del funcionamiento, lo cual es fundamental en cualquier máquina para obtener los mejores resultados de la misma, podemos pensar en hacer búsquedas eficaces, que explicaré en otro artículo.

                                                     
                                                     Juan Cabezas Alonso
                   Si lo puedo imaginar, lo puedo crear.

2 comentarios :

  1. Estimado anónimo:
    Soy Roberto Morales. Lo primero gracias por acercarte al blog y dejarnos tu comentario. No soy el autor del texto , pero sí el que en última instancia decidió la publicación del mismo.
    Desde Licencia Histórica buscamos profesionalidad, academicismo y sobre todo servicio al lector universitario y curioso en general. La explicación de cómo funciona un buscador no debe ser divertida. Debe ser exacta, veraz y fundamentada y el texto propuesto cumple con creces estos parámetros
    Gracias a este texto “tan aburrido” mis búsquedas en internet son mucho más efectivas y quise que mis lectores contaran con esta información que a mí me fue tan útil.
    Fíjate si desde Licencia Histórica respetamos a nuestros lectores y sus críticas que estoy respondiéndote cuando tu comentario, convendrás conmigo, es simplón y carente de lógica. Supongo que por ello te escondes en el anonimato.
    Te reitero nuestro agradecimiento por acercarte a nuestro blog, pero aprovecho para decir que mensajes de este tipo serán borrados como ya avisamos en la zona de comentarios. No por negativo, sino por simple y carente de cualquier interés para nosotros y sobre todo para nuestros lectores.

    Un saludo.

    ResponderEliminar

Rogamos que se respeten las reglas gramaticales y ortográficas en los comentarios.

Las faltas de respeto, la publicidad, spam, o cualquier otro comportamiento inadecuado implicarán la eliminación del comentario de manera taxativa.