Robots txt
Robots txt este un fișier text care permite unui site web să ofere instrucțiuni roboților care accesează cu crawlere web.
Motoarele de căutare precum Google folosesc aceste crawlere web, numite uneori roboți web, pentru arhivarea și clasificarea site-urilor web. Majoritatea roboților sunt configurați pentru a căuta un fișier robots.txt pe server înainte ca acesta să citească orice alt fișier de pe site. Face acest lucru pentru a vedea dacă proprietarul unui site web are câteva instrucțiuni speciale despre cum să acceseze cu crawlere și să indexeze site-ul său.
Fișierul robots txt conține un set de instrucțiuni care solicită botului să ignore anumite fișiere sau directoare. Acest lucru poate fi în scopul confidențialității sau pentru că proprietarul site-ului web consideră că conținutul acelor fișiere și directoare nu este relevant pentru clasificarea site-ului web în motoarele de căutare.
Dacă un site web are mai multe subdomenii, fiecare subdomeniu trebuie să aibă propriul fișier robots txt. Este important să rețineți că nu toți roboții vor onora un fișier robots.txt. Unii roboți rău intenționați vor citi chiar fișierul robots.txt pentru a găsi ce fișiere și directoare ar trebui să vizeze mai întâi. De asemenea, chiar dacă un fișier robots.txt îi instruiește pe roboți să ignore anumite pagini de pe site, aceste pagini pot apărea în continuare în rezultatele căutării și sunt legate de alte pagini accesate cu crawlere.