Damit Seitenbetreiber von diesem Privileg profitieren können, sollten sie Suchmaschinen das Crawling der eigenen Website vereinfachen. Diese haben schließlich das Interesse, Suchenden die passenden Antworten auf ihre Fragen zu geben. Fragen, die Seitenbetreiber am liebsten mit ihrer eigenen Website beantworten.

Wer seine Website erfolgreich in Suchmaschinen platzieren will, sollte versuchen, ein tieferes Verständnis für deren Funktionsweise zu bekommen. Es sollte als Privileg angesehen werden, über die Suchergebnisse zielgruppenrelevanten Traffic zu erhalten. Wenn Sie professionelle SEO Beratung wünschen kontaktieren Sie uns gerne.

Worauf legen Suchmaschinen wert?

Damit die eigene Website zu den relevanten Fragen beziehungsweise Keywords gefunden wird, müssen die Crawler der Suchmaschinen die relevanten Unterseiten erreichen, deren Inhalte interpretieren und korrekt verarbeiten. Erst dann landen sie im Index und werden gegebenenfalls zu passenden Suchanfragen ausgeliefert.

Heutzutage geht es in fast allen Bereichen um Energie und Effizienz – so auch bei Suchmaschinen. Jede Website erhält ein bestimmtes Index- und Crawlingbudget, das den Crawlern den für eine Domain veranschlagten Zeitaufwand vorgibt. Webmaster können hier entscheidende Fehler machen, indem sie die vorhandenen Budgets für die falschen Ressourcen verwenden. Mithilfe einiger Hinweise können sie die Relevanz einzelner Inhalte festlegen. Suchmaschinen verstehen diese Hinweise, setzen davon ausgehend Prioritäten und lassen sich somit in gewissem Ausmaß steuern.

Die Anweisungen im Detail

Webmaster, die verstanden haben, dass sie mit den vorhandenen Budgets sorgsam haushalten sollten, können von den Ressourcen, die ihnen die Suchmaschine zur Verfügung stellt, bestmöglich profitieren. Doch worauf achten Crawler? Welche Hinweise sind für sie relevant und beeinflussen die Verarbeitung einer Website? Diese Fragen soll dieser Artikel beantworten.

Schütze dich vor Duplicate Content

Vielen Webmastern ist nicht bewusst, dass doppelte Inhalte zu Problemen führen. Zum einen fällt es Suchmaschinen schwer, das „richtige“ Dokument für Suchanfragen auszuliefern. Zum anderen verschwenden doppelte Inhalte das vorhandene Crawling-Budget, sodass relevante Inhalte möglicherweise nicht in den Index gelangen. Suchmaschinen werden immer besser darin, doppelte Inhalte zu erkennen und das erstgenannte Problem zu beheben. Für Webmaster resultieren doppelte Inhalte aber dennoch in einer Verschwendung des eigenen Budgets.

In einigen Fällen lassen sich doppelte Inhalte nicht vermeiden. Seitenbetreiber sollten den Crawlern unter diesen Umständen im Quelltext erklären, wie sie damit umgehen sollen. Hilfreich sind dabei folgende Möglichkeiten:

  • Das Meta-Tag „noindex“: Es sorgt dafür, dass eine Webseite nicht in den Index aufgenommen wird. Das Meta-Tag wird in den <head> der Seite geschrieben und sieht folgendermaßen aus: <meta name=“robots“ content=“noindex“>. Es hilft dabei, die doppelte Indexierung von „Duplicate Content“ zu vermeiden.
  • Das Canonical-Tag: Es wird genutzt, wenn sich mehrere Seiten kaum oder gar nicht voneinander unterscheiden. Die „Duplikate“ einer Seite verweisen per Canonical-Tag auf das „Original“. Webmaster erklären der Suchmaschine damit, welche Unterseite in den Index aufgenommen und bei passenden Suchanfragen ausgeliefert werden soll. Auch das Canonical-Tag wird in den <head> der Seite geschrieben und sieht folgendermaßen aus: <link rel=“canonical“ href=“http://www.beispiel.de/“>.
  • Korrekte Statuscodes: Seitenbetreiber sollten auf korrekte Statuscodes achten, damit Suchmaschinen wichtige Ressourcen sparen. Die folgenden Statuscodes sind für Suchmaschinen besonders relevant:
    • Statuscode 200 – OK: Er signalisiert den Crawlern, dass mit dieser Seite alles in Ordnung ist und dass ein Dokument erreichbar ist. Wichtig: Sollte es sich um eine Fehlerseite handeln, die eigentlich den Status 404 erhalten sollte, dann muss diese auch als 404-Seite gekennzeichnet werden. Ist das nicht der Fall, spricht man von „Soft 404“-Fehlern.
    • Statuscode 301 – Moved Permanently: Ist eine Ressource dauerhaft unter einer anderen URL vorhanden, sollte die Weiterleitung per Statuscode 301 erfolgen. Dieser Statuscode sorgt dafür, dass relevanter „Linkjuice“ weitergegeben wird. Wenn also eine Weiterleitung dauerhaft und nicht temporär ist, nutze immer „Statuscode 301“.
    • Statuscode 302 – Found: Beim Statuscode 302 erhalten Crawler die Information, dass eine Webseite nur temporär unter einer anderen URL erreichbar ist. Dadurch wird kein „Linkjuice“ an das neue Linkziel weitergegeben.
    • Statuscode 404 – Not found: Ein 404-Fehler erklärt Crawlern, dass ein Dokument nicht unter der angegebenen URL verfügbar ist – ein schlechtes Zeichen. Webmaster sollten die Anzahl dieser Fehler gering halten. Die Webmaster-Tools helfen, 404-Fehler auf der eigenenWebsite aufzuspüren.
    • Statuscode 500 – Internal Server Error: Wenn Server einen internen Fehler feststellen, geben sie meist einen Statuscode 500 aus. Crawler beenden an dieser Stelle häufig das Crawling und kommen zu einem späteren Zeitpunkt noch einmal zurück, damit der Server nicht zusätzlich belastet wird.
    • Statuscode 503 – Service Unavailable: Wird der Statuscode 503 ausgeben, ist der Server überlastet oder wird gewartet. Für Crawler ist das ein Hinweis darauf, dass sie ihre Arbeit zu einem späteren Zeitpunkt fortsetzen sollten. Mithilfe des Header-Felds „Retry-After“ können Webmaster angeben, wann der Server wieder in der Lage ist, externe Anfragen zu bearbeiten.

Vermeide Weiterleitungsketten

Weiterleitungsketten (auch „Redirect-Chains“) rauben Crawlern wichtige Ressourcen. Webmaster sollten diese deshalb bestmöglich vermeiden. Die inkorrekte Nutzung von Statuscodes kann dazu führen, dass „Linkjuice“ nicht weitergegeben wird, weshalb Seitenbetreiber mit dem korrekten Statuscode (meist 301) auf neue Linkziele verweisen sollten. Suchmaschinen brechen das Crawling der Weiterleitungsketten teilweise ab. Auf mobilen Geräten sorgen sie außerdem für steigende Ladezeiten

Strukturiere deine Website mit Sitemaps

Sitemaps bieten die Chance, Crawlern schon zu Beginn ihrer Arbeit einen Überblick zu geben und Prioritäten zu setzen. Sie können inhaltlich separiert werden und lassen sich auch nach Datentyp trennen. so gibt es Sitemaps für:

  • Inhalte,
  • Videos,
  • Bilder,
  • News,
  • mobile Inhalte.

Damit sie gefunden wird, sollte die Sitemap in der robots.txt der Website stehen. Ist die maximale Größe limitiert, können Webmaster einen Master erstellen, der alle weiteren Sitemaps enthält. Die einzelnen Sitemaps können Seitenbetreiber außerdem in den Google-Webmaster-Tools einreichen. So lässt sich kontrollieren, inwieweit die Sitemaps bereits von der Suchmaschine bearbeitet wurden.

Mithilfe folgender Attribute können Webmaster dem Crawler weitere Informationen zukommen lassen:

  • <changefreq>: Dieses Attribut gibt an, wie häufig sich der Inhalt des Dokuments ändert und wann ein Recrawl angebracht ist. Es stehen folgende Attribute zur Auswahl: alwayshourlydailyweeklymonthlyyearlynever. Seitenbetreiber können mithilfe dieser Attribute beispielsweise auch einzelne Seitenbereiche kennzeichnen, deren Inhalte sich seltener ändern, Archive sind hierfür ein gutes Beispiel.
  • <priority>: Webmaster, die in der Sitemap die Wertigkeit einzelner Unterseiten unterscheiden möchten, können das mit diesem Attribut tun. Es gibt an, wie hoch die Priorität eines einzelnen Dokuments im Vergleich zu allen anderen Dokumenten ist. Der Standardwert liegt bei „0,5“, die gesamte Spanne liegt zwischen „0,1“ und „1,0“. Mithilfe dieses Attributs können Webmaster der Suchmaschine mitteilen, welche Dokumente ihnen besonders wichtig sind, damit die Suchmaschine hierfür mehr Ressourcen aufwendet.
  • <lastmod>: Das Attribut gibt an, wann eine Sitemap das letzte Mal geändert wurde. Wichtig: Es geht hierbei nicht um die Inhalte, sondern um die Sitemap. Der Einsatz dieses Attributs ist also nur nach der Anpassung der Sitemap nötig.

 

4. Mache schwer crawlbare Inhalte verständlich

Crawler hatten in der Vergangenheit teilweise Schwierigkeiten mit Ajax-basierten Inhalten. Obwohl die Verarbeitung mittlerweile besser geworden ist, sollten Webmaster den Crawlern bei der Verarbeitung aller Unterseiten helfen. Wenn Ajax genutzt wird, um Content dynamisch nachzuladen, sollte folgendes beachtet werden:

  • Damit Crawler die per Ajax ausgezeichneten Elemente verarbeiten, müssen sie ausgezeichnet werden. Hierzu müssen den Crawlern andere URLs zur Verfügung gestellt werden, wie Google in einer Anleitung erklärt.
  • Die URLs müssen ein Token in den Hash-Fragmenten enthalten, das den Crawlern den Ajax-Inhalt signalisiert. Bei eindeutigen Seiten handelt es sich bei dem Token um ein Ausrufungszeichen.
  • Die Crawler müssen für jede zu indexierende URL vom Server einen HTML-Snapshot erhalten, der alle für den Nutzer sichtbaren Inhalte enthält. Damit der Server weiß, welche Version er den Crawlern geben muss, ändert dieser temporär die Ajax-URL. Er ersetzt den Hashwert (#!) in „?_escaped_fragment_=“ und erfragt damit den Snapshot.
  • Bei Seiten, die ohne Hash-Fragmente indexiert werden sollen (beispielsweise die Startseite oder einzelne Unterseiten), muss folgendes Meta-Tag in den <head> der Seite eingefügt werden: <meta name=“fragment“ content=“!“>. Auch hier wird ein HTML-Snapshot für die jeweilige Seite benötigt, die Crawler vom Server erfragen können.
  • In den Sitemaps sollten die URLs eingetragen werden, die auch so in dieser Form indexiert werden sollen.

Um als Webmaster sicher zu gehen, dass die Suchmaschine alle Ajax-Inhalte verarbeiten und indexieren konnte, sollte man es mithilfe der Google-Webmaster-Tools prüfen. Im Bereich „Crawling“ findet man den Menüpunkt „Abruf wie durch Google“. Hier müssen Nutzer nur die URL mit dem Hashwert (#!) eintragen und auf „Abrufen und rendern“ klicken.

Nutze die Vorteile von internen Links

Mithilfe von internen Links können Seitenbetreiber die wichtigsten Unterseiten ihrer Website definieren. Die Häufigkeit, mit der ein Dokument verlinkt wird, signalisiert Crawlern dessen Priorität. Besonders wichtig ist auch die Erreichbarkeit: Je schneller eine Unterseite von der Startseite aus erreichbar ist, desto größer ihre Bedeutung. Seitenbetreiber sollten demnach eine flache Hierarchie wählen oder alle Unterseiten mithilfe von optimierten Paginierungen, Linkmodulen oder Sitemaps zur Verfügung stellen.

Schaffe Zusammenhänge

Crawler haben Probleme, den Zusammenhang zweier Unterseiten zu erkennen, insbesondere, wenn es sich um paginierte Artikel handelt. Seitenbetreiber können hier mit den Attributen <rel=“next“> und <rel=“prev“> abhelfen. Sie werden im <head> einer Webseite hinterlegt und stellen so eine Beziehung zwischen mehreren Dokumenten her.

Das Attribut <rel=“next“> verweist auf die nächsten Teile eines Dokuments, <rel=“prev“> auf die vorherigen Teile. Crawler erkennen dadurch nicht nur den Zusammenhang zweier Webseiten, sondern auch ihre Reihenfolge.

7. Stelle strukturierte Inhalte bereit

Strukturierte Daten bieten Seitenbetreibern eine weitere Möglichkeit, dem Crawler zusätzliche Informationen über die auf einer Webseite hinterlegten Inhalte zu geben. Sie werden mittels Tags auf den Unterseiten eingebunden und wirken sich teilweise auf deren Darstellung in den Suchergebnissen aus. Man spricht in diesem Kontext auch von „Rich Snippets“. Es gibt sie unter anderem für folgende Informationstypen:

  • Bewertungen
  • Veranstaltungen
  • Personen
  • Breadcrumbs
  • Rezepte
  • Produkte
  • Unternehmen
  • Musik

Um zu testen, ob diese Daten innerhalb des Dokuments korrekt ausgezeichnet wurden, bietet Google ein „Test-Tool für strukturierte Daten“. Wir bieten professionelle SEO Workshops und Schulungen an.

Empfohlene Beiträge