robots.txt是搜索引擎訪問網(wǎng)站時(shí)需要查看的第一個(gè)文件,是指定搜索引擎捕獲網(wǎng)站內(nèi)容范圍的文本文件。當(dāng)搜索蜘蛛訪問網(wǎng)站時(shí),它會(huì)首先檢查網(wǎng)站根目錄下是否有robots.txt,如果存在,訪問范圍會(huì)根據(jù)文件中的內(nèi)容來確定。
在網(wǎng)站建設(shè)的過程中,我們會(huì)有一些不想被搜索引擎捕獲或者不想出現(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容,那么我們該怎么辦呢?我怎么能告訴搜索引擎你不應(yīng)該抓住我的xx內(nèi)容?這時(shí),robots就派上了用場。
robots.txt是搜索引擎訪問網(wǎng)站時(shí)需要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上可以查看哪些文件。
當(dāng)搜索蜘蛛訪問網(wǎng)站時(shí),它將首先檢查網(wǎng)站根目錄下是否存在robots.txt。如果存在,搜索蜘蛛將根據(jù)文件中的內(nèi)容確定訪問范圍;如果文件不存在,所有搜索蜘蛛將能夠訪問網(wǎng)站上所有未受密碼保護(hù)的頁面。
語法:最簡單的robots.txt文件使用兩條規(guī)則:
User-Agent:適用以下規(guī)則的版本。
disalow:要攔截的網(wǎng)頁。
但是我們需要注意幾點(diǎn):
1.robots.txt必須存儲(chǔ)在網(wǎng)站的根目錄中。
2.其命名必須是robots.txt,文件名必須全部小寫。
3.Robots.txt是搜索引擎訪問網(wǎng)站的第一頁。
在Robots.txt中必須指明user-agent。
使用robots.txt的誤區(qū)。
1:在robots.txt文件中設(shè)置所有文件都可以被搜索蜘蛛抓取,這樣可以提高網(wǎng)站的收錄率。
即使蜘蛛收錄了網(wǎng)站中的程序腳本、樣式表等文件,也不會(huì)增加網(wǎng)站的收錄率,只會(huì)浪費(fèi)服務(wù)器資源。因此,搜索蜘蛛索引這些文件必須設(shè)置在robots.txt文件中。
在robots.txt中詳細(xì)介紹了哪些文件需要排除。
2:我網(wǎng)站上的所有文件都需要蜘蛛抓取,所以我不需要添加robots.txt文件。無論如何,如果這個(gè)文件不存在,所有搜索蜘蛛都會(huì)默認(rèn)訪問網(wǎng)站上所有沒有密碼保護(hù)的頁面。
每當(dāng)用戶試圖訪問一個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。服務(wù)器還會(huì)在日志中記錄一個(gè)404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站上添加一個(gè)robots。
3:搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源,在robots.txt文件中設(shè)置所有搜索蜘蛛都無法抓取所有網(wǎng)頁。
如果是這樣的話,整個(gè)網(wǎng)站就不能被搜索引擎收錄。
使用robots.txt的技巧。
1.每當(dāng)用戶試圖訪問一個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(找不到文件)。服務(wù)器還會(huì)在日志中記錄一個(gè)404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站上添加一個(gè)robots。
2.網(wǎng)站管理員必須將蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——確保服務(wù)器的性能。比如大部分網(wǎng)站服務(wù)器都有存儲(chǔ)在cgi-bin目錄下的程序,所以在robots.txt文件中加入disallow:/cgi-bin是個(gè)好主意,這樣可以避免蜘蛛索引所有程序文件,節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片、背景圖片等。
下面是常見的robots.txt文件:
User-agent: *
Disalow:/admin/后臺(tái)管理文件。
Disalow:/template/模板文件。
Disalow:/require/程序文件。
Disalow:/images/圖片。
Disalow:data/數(shù)據(jù)庫文件。
disachment/附件。
Disalow:/css/樣式表文件。
Disalow:/script/腳本文件。
Disalow:/lang/編碼文件。
3.如果你的網(wǎng)站是一個(gè)動(dòng)態(tài)網(wǎng)頁,你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建一個(gè)靜態(tài)副本,讓搜索蜘蛛更容易抓取。然后,您需要在robots.txt文件中設(shè)置它們,以避免蜘蛛對動(dòng)態(tài)網(wǎng)頁進(jìn)行索引,以確保這些網(wǎng)頁不會(huì)被視為重復(fù)內(nèi)容。
4.在robots.txt文件中也可以直接包含sitemap文件的鏈接。就像這樣:
Sitemap: http://allianceaerosystems.com/sitemap.xml
目前支持這一點(diǎn)的搜索引擎公司包括谷歌、Yahoo、AskandMN。然而,中國的搜索引擎公司顯然不在這個(gè)圈子里。這樣做的好處是,站長不需要去每個(gè)搜索引擎的站長工具或類似的站長部分提交自己的站點(diǎn)地圖文件,搜索引擎的蜘蛛會(huì)抓取robots.txt文件,讀取其中的站點(diǎn)地圖路徑,然后抓取其中鏈接的網(wǎng)頁。
5.合理使用robots.txt文件也可以避免訪問時(shí)出錯(cuò)。例如,搜索者不能直接進(jìn)入購物車頁面。由于沒有理由包括購物車,您可以在robots.txt文件中設(shè)置它,以防止搜索者直接進(jìn)入購物車頁面。
以上就是什么是robots.txt?的內(nèi)容,更多文章關(guān)注易企優(yōu)的其他相關(guān)文章!