日日噜噜夜夜躁躁狠狠_jizzjizz日本护士水好_chinesefistinghdxxxx_艳n母在线看

您好,歡迎訪問seo優(yōu)化易企優(yōu)搜索引擎優(yōu)化系統(tǒng)!
咨詢熱線:400-844-5354
 
微信二維碼
咨詢熱線:400-844-5354

網(wǎng)站優(yōu)化|什么是robots.txt文件?

  robots.txt是搜索引擎訪問網(wǎng)站時(shí)需要查看的第一個(gè)文件,是指定搜索引擎捕獲網(wǎng)站內(nèi)容范圍的文本文件。當(dāng)搜索蜘蛛訪問網(wǎng)站時(shí),它會(huì)首先檢查網(wǎng)站根目錄下是否有robots.txt,如果存在,訪問范圍會(huì)根據(jù)文件中的內(nèi)容來確定。

  在網(wǎng)站建設(shè)的過程中,我們會(huì)有一些不想被搜索引擎捕獲或者不想出現(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容,那么我們該怎么辦呢?我怎么能告訴搜索引擎你不應(yīng)該抓住我的xx內(nèi)容?這時(shí),robots就派上了用場。

robots

  robots.txt是搜索引擎訪問網(wǎng)站時(shí)需要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上可以查看哪些文件。

  當(dāng)搜索蜘蛛訪問網(wǎng)站時(shí),它將首先檢查網(wǎng)站根目錄下是否存在robots.txt。如果存在,搜索蜘蛛將根據(jù)文件中的內(nèi)容確定訪問范圍;如果文件不存在,所有搜索蜘蛛將能夠訪問網(wǎng)站上所有未受密碼保護(hù)的頁面。

  語法:最簡單的robots.txt文件使用兩條規(guī)則:

  User-Agent:適用以下規(guī)則的版本。

  disalow:要攔截的網(wǎng)頁。

  但是我們需要注意幾點(diǎn):

  1.robots.txt必須存儲(chǔ)在網(wǎng)站的根目錄中。

  2.其命名必須是robots.txt,文件名必須全部小寫。

  3.Robots.txt是搜索引擎訪問網(wǎng)站的第一頁。

  在Robots.txt中必須指明user-agent。

  使用robots.txt的誤區(qū)。

  1:在robots.txt文件中設(shè)置所有文件都可以被搜索蜘蛛抓取,這樣可以提高網(wǎng)站的收錄率。

  即使蜘蛛收錄了網(wǎng)站中的程序腳本、樣式表等文件,也不會(huì)增加網(wǎng)站的收錄率,只會(huì)浪費(fèi)服務(wù)器資源。因此,搜索蜘蛛索引這些文件必須設(shè)置在robots.txt文件中。

  在robots.txt中詳細(xì)介紹了哪些文件需要排除。

  2:我網(wǎng)站上的所有文件都需要蜘蛛抓取,所以我不需要添加robots.txt文件。無論如何,如果這個(gè)文件不存在,所有搜索蜘蛛都會(huì)默認(rèn)訪問網(wǎng)站上所有沒有密碼保護(hù)的頁面。

  每當(dāng)用戶試圖訪問一個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。服務(wù)器還會(huì)在日志中記錄一個(gè)404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站上添加一個(gè)robots。

  3:搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源,在robots.txt文件中設(shè)置所有搜索蜘蛛都無法抓取所有網(wǎng)頁。

  如果是這樣的話,整個(gè)網(wǎng)站就不能被搜索引擎收錄。

  使用robots.txt的技巧。

  1.每當(dāng)用戶試圖訪問一個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(找不到文件)。服務(wù)器還會(huì)在日志中記錄一個(gè)404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站上添加一個(gè)robots。

  2.網(wǎng)站管理員必須將蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——確保服務(wù)器的性能。比如大部分網(wǎng)站服務(wù)器都有存儲(chǔ)在cgi-bin目錄下的程序,所以在robots.txt文件中加入disallow:/cgi-bin是個(gè)好主意,這樣可以避免蜘蛛索引所有程序文件,節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片、背景圖片等。

  下面是常見的robots.txt文件:

  User-agent: *

  Disalow:/admin/后臺(tái)管理文件。

  Disalow:/template/模板文件。

  Disalow:/require/程序文件。

  Disalow:/images/圖片。

  Disalow:data/數(shù)據(jù)庫文件。

  disachment/附件。

  Disalow:/css/樣式表文件。

  Disalow:/script/腳本文件。

  Disalow:/lang/編碼文件。

  3.如果你的網(wǎng)站是一個(gè)動(dòng)態(tài)網(wǎng)頁,你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建一個(gè)靜態(tài)副本,讓搜索蜘蛛更容易抓取。然后,您需要在robots.txt文件中設(shè)置它們,以避免蜘蛛對動(dòng)態(tài)網(wǎng)頁進(jìn)行索引,以確保這些網(wǎng)頁不會(huì)被視為重復(fù)內(nèi)容。

  4.在robots.txt文件中也可以直接包含sitemap文件的鏈接。就像這樣:

  Sitemap: http://allianceaerosystems.com/sitemap.xml

  目前支持這一點(diǎn)的搜索引擎公司包括谷歌、Yahoo、AskandMN。然而,中國的搜索引擎公司顯然不在這個(gè)圈子里。這樣做的好處是,站長不需要去每個(gè)搜索引擎的站長工具或類似的站長部分提交自己的站點(diǎn)地圖文件,搜索引擎的蜘蛛會(huì)抓取robots.txt文件,讀取其中的站點(diǎn)地圖路徑,然后抓取其中鏈接的網(wǎng)頁。

  5.合理使用robots.txt文件也可以避免訪問時(shí)出錯(cuò)。例如,搜索者不能直接進(jìn)入購物車頁面。由于沒有理由包括購物車,您可以在robots.txt文件中設(shè)置它,以防止搜索者直接進(jìn)入購物車頁面。

  以上就是什么是robots.txt?的內(nèi)容,更多文章關(guān)注易企優(yōu)的其他相關(guān)文章!


TAG標(biāo)簽:網(wǎng)站優(yōu)化 robots 
聲明:本文"網(wǎng)站優(yōu)化|什么是robots.txt文件?":http://allianceaerosystems.com/html/show526.html內(nèi)容和圖片部分來自互聯(lián)網(wǎng),若本站收錄的信息無意侵犯了貴司版權(quán),請給我們來信,我們會(huì)及時(shí)處理和回復(fù)。

上一頁:seo優(yōu)化教程|什么是死鏈?

下一頁:seo行業(yè)目前的生存狀況

Top