Linktext, Crawling-Frequenz, Duplicate Content und viel PageRank in einem Google Patent
Am Dienstag trudelte ein etwas ausführlicherer Post des englischsprachigen Blogs seobythesea.com in meinem hoffnungslos überfüllten Feed-Reader, mit dessen Inhalt ich mich im folgenden Beitrag beschäftige.
Bereits im Jahr 2003 hat Google ein Patent* eingereicht, welches Ihnen im November erteilt wurde. Das Patent thematisiert unter anderem folgende Punkte:
- Informationen zur Relevanz des Linktextes (Link Log/ Anchor Map)
- Faktoren zur Beeinflussung der Crawl-Frequenz
- Verfahrensweise zur Bestimmung von originalen Dokumenten (Stichwort: Doppelter Content)
- Häufigkeit der PageRank-Ermittlung
In dem beschriebenen System werden beim Spidern gefundene Links, zusammen mit Informationen der Quell- und Zieldomain in einem Link Log geloggt. Eine Anchor Map listet Linktexte sortiert nach Ziel-URL, dazu werden auch Quell-URL zusammen mit diversen weiteren Informationen geloggt und ausgewertet.
Mit diesem Datenbestand kann ein erstes Ranking unter anderem zur Definition der Crawl-Frequenz zum Einsatz kommen, welches festlegt, in welchen Abständen eine Webseite gespidert wird.
Dabei sind vorwiegend folgende Qualitätsmerkmale besonders relevant:
The crawl frequency for a URL is computed based on the historical change frequency of the URL and the page rank of the URL.
Interessant ist in diesem Patent, dass an unheimlich vielen Stellen des Systems PageRank als Kriterium für die unterschiedlichsten Sortieraufgaben verwendet wird. Selbst wenn man davon ausgeht, dass Google sich in den vier Jahren seit Stellung des Patentantrages weiterentwickelt hat, wird deutlich, welche Stellung der PR für Google hat. In diesem Licht sind auch die Linkkauf-Strafaktionen neu zu bewerten. Google müsste von Grund auf neu programmiert und konzipiert werden, wenn es ohne PageRank auskommen sollte.
Jedem SEO ist bestimmt schon aufgefallen, wie gut die Google-Bots einschätzen können, wie oft sich ein Dokument ändert und mit welcher Eleganz deren Steuerung – im Gegensatz zu den DoS-Atacken des MSN-Bots – funktioniert.
Die Kategorisierung von URLs in verschiedene Layer sorgt in diesem System für eine flexible Festlegung der Crawlintensität. Im Lichte dieses Patentes ist es nicht länger erstaunlich, dass manche Blogposts binnen weniger Stunden in den organischen Suchergebnissen der Websuche auftauchen. Den URLs im jeweiligen Layer geht eine definierte, hohe Frequenz voraus, die sich auch zum Beispiel aus der Häufigkeit der Veröffentlichung von Beiträgen in Blogs und den eingehenden Links ergeben.
Es wird auch beschrieben, wie zur Ermittlung des Urhebers von Webinhalten unter anderem Links und Linktexte verwendet werden können. Finden sich identische Passagen auf mehreren Dokumenten wieder, so geht in die Bestimmung des Originals vorwiegend die bestehende Verlinkung ein. Ein Quellverweis wird somit auch als dieser identifiziert und sorgt damit für die Selektion des Originals unter Duplikaten, bevor Dokumente abgelegt werden (wir alle wissen, das das in der Praxis oft immernoch nicht so gut funktioniert, also besteht in diesem Bereich auch heute noch großer Verbesserungsbedarf
).
Das Patent ist mittlerweile über vier Jahre alt und dementsprechend nicht auf dem aktuellen technischen Stand, der tatsächlich zum Einsatz kommen muss. Allerdings kann der Inhalt des Patentes als Grundlage für Weiterentwicklungen angesehen werden, die auf die aktuellen Verfahrensweisen basieren.
Wie für ein Patent üblich, ist der Inhalt sehr ausführlich und detailliert beschrieben. seobythesea.com hat sich abermals die Mühe gemacht, ein Google-Patent wiederzugeben und zu analysieren.
Please don’t take any of the information from this patent as gospel – but keep in mind that it is a document created by people from Google, and that if the processes described within it aren’t being used, that they were seriously enough considered to protect them as intellectual property of the search engine.
Absolut lesenswert!
Andreas
via seobythesea.com
Der Autor des Blogs seobythesea.com ist bekannt für seine erhöhte Postfrequenz zu Google-Patenten. Auch jenes Patent hat er aufgespürt und ausführlich dokumentiert.
* Anchor tag indexing in a web crawler system
Invented by Huican Zhu, Jeffrey Dean, Sanjay Ghemawat, Bwolen Po-Jen Yang, and Anurag Acharya
Assigned to Google
US Patent 7,308,643
Granted December 11, 2007
Filed July 3, 2003


(9 votes, average: 4.22 out of 5)







RSS 2.0
19. Dezember 2007 um 14:18
ich frage mich wo die dieses patent herhaben. kann man sowas einfach jeder einsehen oder wurder das “geleaked”? sehr interessant is der artikel allermal. vor allem wusste ich nicht dass der msn bot so “schlecht” arbeitet.
mfg Martin
21. Dezember 2007 um 14:43
Patente werden in Deutschland 18 Monate nach Erteilung des Patents veröffentlicht (§ 31 Patentgesetz). Ich denke mal, das wird in den USA vergleichbar sein.
Und hier ist das Patent ja schon etwas älter.
21. Dezember 2007 um 18:17
@Brandau
Nein in den USA sind die Fristen anscheinend länger. Im Patent ist zu lesen, dass es am 3 Juli 2003 eingereicht und am 11 Dezember 2007 erteilt wurde.
Grüße, Andreas