Suchmaschinenoptimierung Glossar

Vieles Interessantes

 

R
Random Surfer Modell

Der PageRank-Algorithmus wird von den Google-Gründern mit einem Modell zur Abbildung des Benutzer-Verhaltens, dem sog. Random Surfer Modell, gerechtfertigt. Der Random Surfer wird so bezeichnet, da er sich von einem Webdokument zum nächsten bewegt und dabei beliebige Verweise nutzt, ohne dabei auf den Inhalt zu achten. Die Wahrscheinlichkeit mit der dich der Random Surfer auf einem Webdokument befindet, lässt sich aus dem PageRank des Webdokuments herleiten. Der Random-Surfer verfolgt nun einen bestimmten Verweis, wobei sich die Wahrscheinlichkeit, welcher der Verweise verfolgt wird, einzig und allein aus der Anzahl der Verweise ergibt, aus denen der User auswählen kann. Deshalb wird in die PageRank-Berechnung immer die Anzahl der ausgehenden Verweise eines Webdokuments miteinbezogen.

Die Wahrscheinlichkeit, dass der Random Surfer auf ein Webdokument gelangt, ist die Summe der Wahrscheinlichkeiten, mit der er von einem verweisenden Webdokument den entsprechenden Verweis verfolgt. Der Faktor d dämpft die Wahrscheinlichkeit , dass der Random-Surfer auf ein Webdokument gelangt. Diese Dämpfung ist darin begründet, dass der Random-Surfer nach einiger Zeit "gelangweilt" ist und anstatt unbegrenzt viele Verweise zu verfolgen, ruft er dann ein beliebiges anderes Webdokument im WWW auf.

Intelligent Surfer und weitere Einflussfaktoren

Richardson und Domingos schlagen ein erweitertes Modell des Random Surfers vor, in dem die User nichtmehr zufällig einen der Verweise verfolgen., sondern sich von einer zielorientierten Motivation leiten lassen. Folglich würde dieser Intelligent Surfer nur Webdokumente aufrufen, die auch für sein Ziel relevant sin. In der Praxis bedeutet dies, dass der
Text des Verweises von Google mitberücksichtigt wird. Hierfür ist ein Abgleich zwischen dem Text des Verweises und dem tatsächlichen Inhalt des Webdokuments, auf das verwiesen wird, erforderlich. Interessiert sich ein User beispielsweise für die Technologie von Plasmabildschirmen, wäre der Verweistext "Technologie von Plasmabildschirmen" deutlich aussagekräftiger und damit für das Ranking wertvoller als ein Verweistext mit dem Wort "hier".

Lawrence Page nennt in der Patenschrift weitere Einflussfaktoren, die für die Berechnung des PageRanks eine Rolle
spielen:

- Stärke der Hervorhebung eines Verweises: Damit wird berücksichtigt, dass ein User nicht völlig wahllos Verweise verfolgt, sondern unabhängig vom Verweistext die deutlich sichtbaren Verweise wahrscheinlicher verfolgt.

- Position eines Verweises innerhalb des Webdokuments: Verweise die im Webdokument weiter oben platziert sind, werden eher vom User wahrgenommen und verfolgt als tiefer liegende, zu denen zunächst gescrollt werden muss.

- Distanz zwischen Webdokumenten: Hierbei wird berücksichtigt wie nahe das verweisende Webdokument zu dem Zieldokument steht. Bei größerer Distanz ist es unwahrscheinlicher, dass ein Website-Betreiber Einfluss auf beide Webdokumente hat. Durch diese Betrachtung wird die Objektivität einer Empfehlung gesichert. Interne Verweise werden folglich weniger stark gewichtet als externe Verweise. In der Praxis kann beispielsweise anhand der IP- Adresse ermittelt werden, ob die Webdokumente auf dem gleichen Webserver vorhanden sind, was auf eine geringe Distanz hinweist.

- Bedeutung eines verweisenden Webdokuments: Verweise von bedeutenden Websites haben für Google eine hohe Bedeutung. So lässt sich beispielsweise feststellen, dass der PageRank eines Webdokuments deutlich ansteigt, sobald das Open Directory Project darauf verweist. Dieser Aspekt ist im Sinne des Intelligent Surfer, da dieser eher
auf bedeutenden Websites mit seiner Sitzung beginnt.

- Aktualität eines verweisenden Webdokuments: Die Aktualität der Webdokumente und ihrer Verweise kann weiterer Faktor herangezogen werden. Grundannahme ist hierbei, dass aktuelle Webdokumente auch auf aktuelle Inhalte verweisen. Problematisch an diesem Ansatz ist die Tatsache, dass bestimmte Webdokumente, z.B. Gesetzestexte sich selten ändern, aber dennoch eine hohe Relevanz besitzen. Ältere Webdokumente sind allerdings häufig bereits gut verlinkt, weshalb der Aktualitätsbonus für neue Webdokumente bei Google als Ausgleich zu sehen ist, so dass Webdokumente überhaupt eine Chance hinsichtlich des Rankings haben.

T
TrustRank

Google muss sich verstärkt mit Suchmaschinen-Spam auseinandersetzen. Konkret bedrohen Webdokumente die nur zum Zwecke einer zielgerichteten Verlinkung hinsichtlich des PageRank-Verfahrens erstellt werden, die hervorragenden Suchergebnisse.
Ein Verfahren wäre wünschenswert mit dem die vertrauenswürdigen Webdokumente von dem reinen Spam unterschieden werden können. Genau diesen Ansatz verfolgen Gyongyi, Garcia-Molina und Pedersen in ihrem Forschungspapier "Combating Web Spam with TrustRank. Anstatt wie bei PageRank jedem Webdokument vollautomatisch die gleichen Chancen auf eine Top-Platzierung einzuräumen, wird zunächst eine vergleichsweise geringe Anzahl an vertrauenswürdigen Webdokumenten manuell ausgewählt und anschließend deren Verlinkungsstruktur betrachtet. Grundüberlegung bei TrustRank ist, dass vertrauenswürdige Webdokumente nicht auf Spam verweisen und somit der Spam reduziert werden kann. Inwieweit und in welcher Ausprägung dieses Verfahren bei Google zum Einsatz kommen wird, bleibt abzuwarten. Google selbst führt TrustRank aber bereits als Marke auf.