top of page

KOHERENTE NAIZ NIRE KONTRAESANEKIN

[EUS] Ongi etorri komunikazio eta dibulgazio zientifikoa praktikan jartzeko gunera.
[ES] Bienvenidos al espacio de práctica de la comunicación y divulgación de la ciencia.

Leer más
Inicio: Bienvenidos
Inicio: Blog2

Formulario de suscripción

Inicio: Suscribirme

¡Gracias por tu mensaje!

Inicio: Contacto
Buscar
Foto del escritorMaialen Muniozguren

El éxito de Google gracias a su algoritmo PageRank

Actualizado: 9 jun 2020

En 1995 los estudiantes de informática Larry Page y Sergey Brin se conocieron en la universidad de Stanford. Si esto no hubiese ocurrido, hoy no existiría Google como tal ya que fue el proyecto conjunto de su tesis doctoral en computación. Uno de los éxitos del buscador web líder de páginas web es su marca registrada PageRank, una serie de algoritmos matemáticos utilizados para asignar por orden de relevancia las páginas web cuando uno hace una búsqueda; este, por cada criterio de búsqueda, ordena las páginas entre las distintas posibilidades.

Larry Page y Sergey Brin


Antes de entender en qué consiste PageRank, conviene repasar brevemente la historia de Google. Como dicho anteriormente, comenzó en 1995, cuando Page y Brinn trabajaban en su tesis doctoral en Standford y finalmente publicaron un artículo en el que proponían una nueva forma de desarrollar un buscador web con las ideas mejoradas que en otros artículos se mencionaban pero se quedaron en el papel. En 1996 lanzaron ya la primera versión de Google en la universidad: google.stanford.edu.


Debido a su éxito, en 1997 lo registraron como google.com, cuando no solo los investigadores, sino empresarios e inversores empezaron a interesarse y en 1998 se registró como empresa y se estableció en el garaje de su amiga Susan Wojcicki Menlo Park, California, además contrataron su primer empleado, compañero de posgrado Craig Silverman. A finales de ese año ya tenía 60 millones de páginas y rivalizaba con los buscadores del momento (Yahoo, AOL, MSN…etc.).

La Vanguardia


En 1999 la empresa ya tenía 8 empleados y se mudó a Palo Alto, donde siguió creciendo. En 2004 salió a bolsa y su valor aumentó muy rápido, se mudaron a su actual Googleplex, en Mountain View, California. Así, empezó a comprar otras compañías y a desarrollar más servicios como redes sociales (Orkut), correo electrónico (Gmail), Google Maps…compró youtube en 2006.

Hoy en día Google forma parte de la compañía Alphabet, un conglomerado de empresas dirigido por Larry Page. Tiene más de 60.000 empleados y oficinas en 50 países. Sus aplicaciones son numerosas: Google Docs, Sheets t Slides, Google Calendar, Google Drive, Google Translate, Google Maps, Google Earth, Blogger, Youtube…y muchas más. También desarrolla los sistemas operativos de Android y el navegador Chrome, tiene redes sociales propias y fabrica dispositivos como los smarthphones Google Pixel.

Pero, este éxito no se hubiera podido alcanzar sin el ingenio y esfuerzo de Page y Brinn. Estos crearon un sistema en el que al buscar cualquier cosa, las miles y miles de páginas web se ordenaran de mayor a menor relevancia para el usuario; de hecho, el nombre de “Google” viene de una palabra matemática que designa la cantidad 10 elevada a 100.


Como otros buscadores de ese momento, uno de los criterios de búsqueda fueron las palabras que coincidían en la búsqueda y en las paginas, no obstante, lo innovador fue tomar en cuenta el número de indexaciones que se hacía de una página web a otra.


El algoritmo creado y marca registrada en 1999 como PageRank se basa en que cada página tiene un valor de relevancia; se toman en cuenta las páginas web enlazadas unas con otras y se elige como más relevante a la que estaba enlazada por las páginas relevantes. A fin de cuentas, se basa en la teoría de grafos. Recordemos que un grafo es un conjunto de nodos y aristas entre ellos.

Wikipedia


En este caso, que una página apunte a otra significa que lo ha citado o indexado en su página. Para entenderlo, podemos poner un ejemplo en el que las páginas web son cuatro:

Derivando


Un nodo (una pagina web) puede tener links a otra y otras páginas a la suya como se puede ver con las aristas unidireccionales. Bien, cada nodo tendrá un valor de relevancia.


Cada nodo puede repartir la relevancia de un 1 punto entre otros nodos a partir de las aristas. Por ejemplo, el nodo número uno lo reparte entre los tres nodos, por tanto, 1/3 para cada uno, el número 3, en cambio, solamente linkea al 1, dándole el punto entero. En el caso de que una página no tuviera links a otra, se sabe que en el buscador puede buscar directamente; lo que se haría en ese caso es que la relevancia haca cada página sería la misma, en este caso, 1/4 a cada una.

Derivando



Y si pasamos a una tabla los direcciones de los enlaces a cada página nos sale lo siguiente:

Pero,también se debe tener en cuenta que no siempre seguimos los links que aparecen en la página web y vamos al buscador de nuevo. Por ello, dado a esta tendencia, añadiremos la probabilidad del 85% de seguir los enlaces de las páginas (multiplicamos el valor por 0,85):

Por tanto, también hay que tener en cuenta que se puede llegar a una página web sin seguir ningún link. Por ello, la probabilidad del 15% de llegar a cada pagina hay que sumarlo en cada uno de ellos. Como son 4 páginas y a cada una de ellas se puede llegar sin seguir un link al 15%: 0.85 X 1/4 = 15/400, un valor que hay que sumar en la tabla:

Para que los número queden más "bonitos" multiplicamos nodos los valores de la tabla por 240. Al final, nos queda la siguiente matriz:


Bien, tenemos los números de relevancia,¿ pero cuál es la relevancia de cada página? Para sacar la información de esta página, necesitamos un sistema de ecuaciones, que la sacaremos de la siguiente manera:


Si hacemos el sistema de ecuaciones lineales, nos sale que:


Derivando


Por tanto, la página 1 es la más importante, después la 3, la 4 y la 2 y google los ordenaría de esa manera. Es una manera sencilla de ordnear las páginas según su cantidad de menciones que tiene cada uno.


No obstante, el PageRank no elige solo entre cuatro páginas, sino millones de ellas y además hay muchísimos criterios o factores más para ordenar las paginas, no solo la cantidad de links que tiene una página. Entre esos componentes se consideran los siguientes:

(El CTR (Click Through Rate) es el número de clics que obtiene un enlace respecto a su número de impresiones).


Entre esos criterios, vemos el registro o historial de navegación de cada persona (en morado). Almacenan nuestros datos y esto genera unos filtros que distorsionan lo que nos va a salir. Por tanto, si piensas que cuando buscas algo en Google eliges tus destinos de búsqueda de una forma neutra, esto no es así; Google ya ha elegido por tí.


No cabe duda de que la historia de cómo dos estudiantes de informática han llegado al éxito y la relativa sencilla manera que tiene el buscador Google de funcionar son fascinantes. Internet es sinónimo de Google. Google se adapta a nuestras necesidades y esto nos facilita muchísimo la vida, ¿pero cómo sabemos que actuamos con neutralidad?

 

LINKS






46 visualizaciones0 comentarios

Entradas recientes

Ver todo

コメント


bottom of page