網(wǎng)站優(yōu)化|什么是robots.txt文件?

來源：root
日期：2022-06-14
訪問量：0

　　robots.txt是搜索引擎訪問網(wǎng)站時(shí)需要查看的第一個(gè)文件，是指定搜索引擎捕獲網(wǎng)站內(nèi)容范圍的文本文件。當(dāng)搜索蜘蛛訪問網(wǎng)站時(shí)，它會(huì)首先檢查網(wǎng)站根目錄下是否有robots.txt，如果存在，訪問范圍會(huì)根據(jù)文件中的內(nèi)容來確定。

　　在網(wǎng)站建設(shè)的過程中，我們會(huì)有一些不想被搜索引擎捕獲或者不想出現(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容，那么我們該怎么辦呢？我怎么能告訴搜索引擎你不應(yīng)該抓住我的xx內(nèi)容？這時(shí)，robots就派上了用場。

robots

　　robots.txt是搜索引擎訪問網(wǎng)站時(shí)需要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上可以查看哪些文件。

　　當(dāng)搜索蜘蛛訪問網(wǎng)站時(shí)，它將首先檢查網(wǎng)站根目錄下是否存在robots.txt。如果存在，搜索蜘蛛將根據(jù)文件中的內(nèi)容確定訪問范圍；如果文件不存在，所有搜索蜘蛛將能夠訪問網(wǎng)站上所有未受密碼保護(hù)的頁面。

　　語法：最簡單的robots.txt文件使用兩條規(guī)則：

　　User-Agent:適用以下規(guī)則的版本。

　　disalow：要攔截的網(wǎng)頁。

　　但是我們需要注意幾點(diǎn)：

　　1.robots.txt必須存儲(chǔ)在網(wǎng)站的根目錄中。

　　2.其命名必須是robots.txt，文件名必須全部小寫。

　　3.Robots.txt是搜索引擎訪問網(wǎng)站的第一頁。

　　在Robots.txt中必須指明user-agent。

　　使用robots.txt的誤區(qū)。

　　1:在robots.txt文件中設(shè)置所有文件都可以被搜索蜘蛛抓取，這樣可以提高網(wǎng)站的收錄率。

　　即使蜘蛛收錄了網(wǎng)站中的程序腳本、樣式表等文件，也不會(huì)增加網(wǎng)站的收錄率，只會(huì)浪費(fèi)服務(wù)器資源。因此，搜索蜘蛛索引這些文件必須設(shè)置在robots.txt文件中。

　　在robots.txt中詳細(xì)介紹了哪些文件需要排除。

　　2:我網(wǎng)站上的所有文件都需要蜘蛛抓取，所以我不需要添加robots.txt文件。無論如何，如果這個(gè)文件不存在，所有搜索蜘蛛都會(huì)默認(rèn)訪問網(wǎng)站上所有沒有密碼保護(hù)的頁面。

　　每當(dāng)用戶試圖訪問一個(gè)不存在的URL時(shí)，服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。服務(wù)器還會(huì)在日志中記錄一個(gè)404錯(cuò)誤，所以你應(yīng)該在網(wǎng)站上添加一個(gè)robots。

　　3:搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源，在robots.txt文件中設(shè)置所有搜索蜘蛛都無法抓取所有網(wǎng)頁。

　　如果是這樣的話，整個(gè)網(wǎng)站就不能被搜索引擎收錄。

　　使用robots.txt的技巧。

　　1.每當(dāng)用戶試圖訪問一個(gè)不存在的URL時(shí)，服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(找不到文件)。服務(wù)器還會(huì)在日志中記錄一個(gè)404錯(cuò)誤，所以你應(yīng)該在網(wǎng)站上添加一個(gè)robots。

　　2.網(wǎng)站管理員必須將蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——確保服務(wù)器的性能。比如大部分網(wǎng)站服務(wù)器都有存儲(chǔ)在cgi-bin目錄下的程序，所以在robots.txt文件中加入disallow:/cgi-bin是個(gè)好主意，這樣可以避免蜘蛛索引所有程序文件，節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片、背景圖片等。

　　下面是常見的robots.txt文件：

　　User-agent: *

　　Disalow:/admin/后臺(tái)管理文件。

　　Disalow:/template/模板文件。

　　Disalow:/require/程序文件。

　　Disalow:/images/圖片。

　　Disalow:data/數(shù)據(jù)庫文件。

　　disachment/附件。

　　Disalow:/css/樣式表文件。

　　Disalow:/script/腳本文件。

　　Disalow:/lang/編碼文件。

　　3.如果你的網(wǎng)站是一個(gè)動(dòng)態(tài)網(wǎng)頁，你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建一個(gè)靜態(tài)副本，讓搜索蜘蛛更容易抓取。然后，您需要在robots.txt文件中設(shè)置它們，以避免蜘蛛對動(dòng)態(tài)網(wǎng)頁進(jìn)行索引，以確保這些網(wǎng)頁不會(huì)被視為重復(fù)內(nèi)容。

　　4.在robots.txt文件中也可以直接包含sitemap文件的鏈接。就像這樣：

　　Sitemap: http://allianceaerosystems.com/sitemap.xml

　　目前支持這一點(diǎn)的搜索引擎公司包括谷歌、Yahoo、AskandMN。然而，中國的搜索引擎公司顯然不在這個(gè)圈子里。這樣做的好處是，站長不需要去每個(gè)搜索引擎的站長工具或類似的站長部分提交自己的站點(diǎn)地圖文件，搜索引擎的蜘蛛會(huì)抓取robots.txt文件，讀取其中的站點(diǎn)地圖路徑，然后抓取其中鏈接的網(wǎng)頁。

　　5.合理使用robots.txt文件也可以避免訪問時(shí)出錯(cuò)。例如，搜索者不能直接進(jìn)入購物車頁面。由于沒有理由包括購物車，您可以在robots.txt文件中設(shè)置它，以防止搜索者直接進(jìn)入購物車頁面。

　　以上就是什么是robots.txt？的內(nèi)容，更多文章關(guān)注易企優(yōu)的其他相關(guān)文章！

TAG標(biāo)簽：網(wǎng)站優(yōu)化 robots

聲明：本文"網(wǎng)站優(yōu)化|什么是robots.txt文件?"：http://allianceaerosystems.com/html/show526.html內(nèi)容和圖片部分來自互聯(lián)網(wǎng)，若本站收錄的信息無意侵犯了貴司版權(quán)，請給我們來信，我們會(huì)及時(shí)處理和回復(fù)。

上一頁：seo優(yōu)化教程|什么是死鏈?

下一頁：seo行業(yè)目前的生存狀況

日日噜噜夜夜躁躁狠狠_jizzjizz日本护士水好_chinesefistinghdxxxx_艳n母在线看

您好，歡迎訪問seo優(yōu)化易企優(yōu)搜索引擎優(yōu)化系統(tǒng)！

網(wǎng)站優(yōu)化|什么是robots.txt文件?