Home | Blog | Leistungen | Projekte | Jobs | Kontakt | Impressum | Sitemap

Eine verspätete Theorie zum letzten PageRank Update

1 Star2 Stars3 Stars4 Stars5 Stars (5 votes, average: 4.6 out of 5)
Loading ... Loading ...

Basierend auf den vielen Daten, die wir gesichtet haben und auf der Nachfrage zur Themenrelevanz von Marcel, möchte ich hier mal eine Theorie zum letzten Update vorstellen, die nix mit Web 1.0 Links zu tun hat ;-)

Ich könnte mir das mit der Klassifizierung und dem Training von Linkkauf bei Google etwa so vorstellen:

Ein Link hat bestimmte Features, wie Alter, Themenrelevanz zwischen verlinkendem Dokument und Zieldokument, Position im Dokument (am Rand oder im Text) u.v.m.

Google sucht via Spamformular und Quality Rater Fälle von Linkkauf (dabei besonders die von Matt Cutts benannten irrelevanten Links, wie sie z.B. auch auf zeit.de oder golem.de bestanden haben).

Diese Links werden mit einem binären Klassifikator auf die eingangs benannten Features trainiert. (Die binäre Klasse wäre in diesem Fall gekauft oder nicht.)

Schritt eins: die manuell ermittelten Linkverkäufer und in Googles Augen irrelevanten Webseiten, wie bestimmte Webkataloge oder Artikelverzeichnisse, werden in ihrem PR abgestraft und auserdem wird anhand dieser ein Klassifikator trainiert.

Schritt zwei: der Klassifikator wird auf alle linkenden Dokumente losgelassen und durch das Training mit PR Links werden viele Dokumente abgewertet, wenn sie dem engen Muster des Linkverkaufs in Inhaltsportalen oder Blogs folgen.

Da die Ausgangsdaten aber sehr ungenau sind und Google eine Menge False-Positive-Links mittrainiert hat (z.B. Blogrolls auf linkverkaufenden Blogs) und auf der anderen Seite viele irrelevante Links nicht trainiert wurden, sind die Ergebnisse so wie sie sind…

Schritt drei: der PR wird unter Berücksichtigung der in den ersten beiden Schritten ermittelten Abstrafungen neu verteilt, zusätzlich werden - wie in diversen PageRank Updates davor - Seiten abgewertet, die kaum neue Links dazu bekommen haben. Weil die Anzahl der Dokumente besonders stark in der großen Update-Pause zugenommen hat und der PR sich auf immer mehr Dokumente verteilen muss, fallen zudem die Abstufungen diesmal teilweise so heftig aus. (Page Rank geht maximal bis 10 aber immer mehr Dokumente kämpfen um PR, weswegen er bei viel mehr Dokumenten fallen muss als er steigt…)

Im Ergebnis haben wir ein Update, bei dem genau das raus kommt, was wir beobachten…

Und jetzt haut auf mich ein! ;-)

Andreas

2 Antworten zu “Eine verspätete Theorie zum letzten PageRank Update”

  1. MichaelNo Gravatar sagt:

    Ich tippe ja immer noch darauf, dass Google neuronale Netze einsetzt… entweder natürliche oder sie haben schon künstliche. ;-)

  2. seoline.deNo Gravatar sagt:

    das habe ich auch schon gehört. anscheinend soll es einige tausend “bewerter” geben die mit + oder - die vorderen seiten auch manuell bewerten. nur per robot würden sicherlich ganz andere ergebnisse erscheinen…

Kommentar schreiben