Robots.txt的標準制作法

發(fā)布時間：2024-11-28 文章來源：本站瀏覽次數(shù)：276

一個網(wǎng)站，能夠有robots.txt，也能夠沒有。但是如果要有，那就必須做的規(guī)范，下面就個人經(jīng)驗來說下robots.txt的制作方法。

　　robots.txt文件指令包含：

　　Disallow - 告知蜘蛛不要抓取某些文件或目錄。如下面代碼將阻止蜘蛛抓取一切的網(wǎng)站文件：

　　User-agent: *

　　Disallow: /

　　Allow - 告知蜘蛛應(yīng)該抓取某些文件。Allow和Disallow配合運用，能夠告知蜘蛛某個目錄下，大部分都不抓取，只抓取一部分。如下面代碼將使蜘蛛不抓取ab目錄下其他文件，而只抓取其中cd下的文件：

　　User-agent: *

　　Disallow: /ab/

　　Allow: /ab/cd

　　$通配符 - 匹配URL結(jié)束的字符。如下面代碼將答應(yīng)蜘蛛拜訪以.htm為后綴的URL：

　　User-agent: *

　　Allow: .htm$

　　*通配符 - 告知蜘蛛匹配任意一段字符。如下面一段代碼將制止蜘蛛抓取一切htm文件：

　　User-agent: *

　　Disallow: /*.htm

　　Sitemaps位置 - 告知蜘蛛你的網(wǎng)站地圖在哪里，格局為：

　　Sitemap:

　　三家都支撐的Meta標簽包含：

　　NOINDEX - 告知蜘蛛不要索引某個網(wǎng)頁。

　　NOFOLLOW - 告知蜘蛛不要跟蹤網(wǎng)頁上的鏈接。

　　NOSNIPPET - 告知蜘蛛不要在查找成果中顯現(xiàn)闡明文字。

　　NOARCHIVE - 告知蜘蛛不要顯現(xiàn)快照。

　　NOODP - 告知蜘蛛不要運用開放目錄中的標題和闡明。

　　上面這些記載或標簽，現(xiàn)在三家都共同支撐。其中通配符好像曾經(jīng)雅虎微軟并不支撐。百度現(xiàn)在也支撐Disallow，Allow及兩種通配符。Meta標簽我沒有找到百度是否支撐的官方闡明。

　　只要Google支撐的Meta標簽有：

　　UNAVAILABLE_AFTER - 告知蜘蛛網(wǎng)頁什么時分過期。在這個日期之后，不該該再出現(xiàn)在查找成果中。

　　NOIMAGEINDEX - 告知蜘蛛不要索引頁面上的圖片。

　　NOTRANSLATE - 告知蜘蛛不要翻譯頁面內(nèi)容。

　　雅虎還支撐Meta標簽：

　　Crawl-Delay - 答應(yīng)蜘蛛延時抓取的頻率。

　　NOYDIR - 和NOODP標簽類似，但是指雅虎目錄，而不是開放目錄。

　　Robots-nocontent - 告知蜘蛛被標注的部分html不是網(wǎng)頁內(nèi)容的一部分，或許換個角度，告知蜘蛛哪些部分是頁面的主要內(nèi)容(想被檢索的內(nèi)容)。

　　MSN還支撐Meta標簽：

　　Crawl-Delay

　　別的提醒我們留意的是，回來404過錯的時分，意味著答應(yīng)蜘蛛抓取一切內(nèi)容。但抓取robots.txt文件時卻產(chǎn)生超時之類的過錯，或許導(dǎo)致查找引擎不錄入網(wǎng)站，因為蜘蛛不知道robots.txt文件是否存在或許里邊有什么內(nèi)容，這與確認文件不存在是不一樣的�？傊�，正確制作 robots.txt 文件能夠幫助網(wǎng)站更好地與搜索引擎配合，實現(xiàn)內(nèi)容合理展示與隱私、資源等方面的有效管理。

上一條：CSS基礎(chǔ)知識...

下一條：常用域名的種類...