Monday, June 9, 2014

So funktionieren Web-Suchmaschinen

Ohne Suchmaschinen lassen sich die Datenmassen im Internet nicht erschließen. Jeder kennt zwar ein paar Adressen, über die er seine Lieblingsseiten aufruft. Wer jedoch an Infos zu beliebigen Themen herankommen will, benötigt eine Suchmaschine. Für optimale Suchabfragen und die bessere Interpretation der Ergebnisse ist die Kenntnis der Arbeitsweise von Suchmaschinen zwar nicht Voraussetzung, aber doch hilfreich. Wer selbst Webseiten veröffentlicht und gefunden werden will, sollte sich auf jeden Fall genauer mit Google beschäftigen. 


Google & Co: Die Sammler im Internet

Schon relativ früh gab es Suchmaschinen für das Internet. Eine der ersten mit Volltextsuche war der Webcrawler im Jahr 1994. Kurz darauf folgten Lycos, Yahoo und Altavista. Google, heute mit etwa 90 Prozent Marktanteil in Deutschland der meistgenutzte Anbieter, kam erst 1998 dazu. Microsofts Bing blieb 2013 trotz der Verankerung im Internet Explorer und in Windows 8 mit drei Prozent Marktanteil nur eine Randerscheinung. Warum Google so erfolgreich ist, bleibt auch im Nachhinein unklar: Gute Suchergebnisse in Kombination mit einer schmucklosen, reduzierten Startseite haben sicher dazu beigetragen. „Googeln" ist Synonym für Internetsuche, als ob es keine andere Suchmaschine mehr gäbe. 

Damit Google den kostenlosen Suchdienst finanzieren kann, ist das Unternehmen auf Werbung angewiesen. Die erscheint, passend zum Suchbegriff und eindeutig gekennzeichnet, auf der Ergebnisseite. Außerdem kann sich jeder selbst Google-Werbung in die eigene Webseiten einbauen und dann bei jedem Klick darauf mitverdienen.

Wie das Internet durchsucht wird 

Wenn eine Suchmaschine an den Start geht, benötigt sie zuerst eine Liste mit Webadressen. Eine Software mit der Bezeichnung Webcrawler, Spider oder Searchbot liest dann den Inhalt der jeweiligen Startseite ein und führt eine Analyse durch. Alle dabei gefundenen Links auf andere Websites erweitern die ursprüngliche verwendete Adressenliste. Die Links auf weitere Seiten innerhalb einer Domain führen den Webcrawler von Seite zu Seite. Was ohne Verlinkung auf dem Webserver liegt, kann nicht erfasst werden. Im optimalen Fall produziert der Webcrawler eine Liste, die Links auf alle Seiten enthält, die über das Internet abrufbar sind. In der Praxis geht der Crawler aber nicht beliebig lange und beliebig oft in die Tiefen jeder Website. Dadurch werden einige Seiten nicht erfasst oder aktualisierte Inhalte nicht berücksichtigt. Betreiber größerer Websites verwenden daher eine Sitemap-Datei, die alle URLs der Site sowie Infos zu den Aktualisierungsintervallen enthält. Es gibt für alle gängigen Content- Management-Systeme Erweiterungen, die das automatisch erledigen. Besitzer einer Website können sich auch jederzeit darüber informieren, welche Seiten erfasst wurden und ob es Probleme gab. Dazu ist eine kostenlose Anmeldung bei den Google Webmaster Toolsoder Bing Webmaster Tools erforderlich. 

Nachdem die Link-Liste erfasst ist, können die Seiteninhalte in den Suchindex aufgenommen werden. Unter Zuhilfenahme der Strukturierung durch Seitentitel, Überschriften und Bildnamen versucht der Indexer, die relevanten Inhalte herauszufinden. Das Ergebnis ist ein riesiger Katalog mit Stichwörtern und den Webseiten, auf denen sie vorkommen.

No comments:

Post a Comment