中文字幕亚洲欧美一区_国产JIZZJIZZ免费看_亚洲av大码在线_亚洲黄色一级毛片_野花影视大全在线观看免费_欧美一区二区三区免费不卡_欧美日韩国产在线精品_国产福利盒子在线看片_精品国产人成在线_日韩欧美动漫一区在线

咨詢電話:024-31891684

網(wǎng)站建設(shè)|注冊|登錄 | 易勢大連分公司

沈陽做網(wǎng)站、沈陽建站易勢最專業(yè)!

 

build網(wǎng)站制作當(dāng)前位置:首頁>主要服務(wù)>網(wǎng)站制作

網(wǎng)站禁止被搜索引擎蜘蛛索引的robots寫法大全

    這些時(shí)候我們會(huì)遇到這樣的困難:我們原本不想被搜索引擎收錄的網(wǎng)站后臺(tái)地址卻被搜索引擎“無情”的收錄,這樣只要在Google里輸入一個(gè)“后 臺(tái)、管理site: www.0515zsw.com”,自己的后臺(tái)地址就會(huì)顯露無疑,因此網(wǎng)站安全性也無從談起。遇到這樣的情況時(shí),我們?nèi)绾巫柚顾阉饕媸珍浳覀?不想被收錄的文件呢?

 

  一般在這個(gè)時(shí)候,我們常用的辦法有兩個(gè),一個(gè)是編輯robots.txt文件,另外一個(gè)是在不想被收錄的頁面頭部放置META NAME="ROBOTS"標(biāo)簽。

 

  所謂的robots.txt文件,是每一個(gè)搜索引擎到你的網(wǎng)站之后要尋找和訪問的第一個(gè)文件,robots.txt是你對搜索引擎制定的一個(gè)如何索引你的網(wǎng)站的規(guī)則。通過這個(gè)文件,搜索引擎就可以知道在你的網(wǎng)站中,哪些文件是可以被索引的,哪些文件是被拒絕索引的。

 

  在很多網(wǎng)站中,站長們都忽略了使用robots.txt文件。因?yàn)楹芏嗾鹃L都認(rèn)為,自己的網(wǎng)站沒有什么秘密可言,而且自己也不太會(huì)使用robots.txt的語法,因此一旦寫錯(cuò)了會(huì)帶來更多的麻煩,還不如干脆不用。

 

  其實(shí)這樣的做法是不對的。在前面的文章中我們知道,如果一個(gè)網(wǎng)站有大量文件找不到的時(shí)候(404),搜索引擎就會(huì)降低網(wǎng)站的權(quán)重。而robots.txt作為蜘蛛訪問網(wǎng)站的第一個(gè)文件,一旦搜索引擎要是找不到這個(gè)文件,也會(huì)在他的索引服務(wù)器上記錄下一條404信息。

 

  雖然在百度的幫助文件中,有這樣的一句話“請注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果 您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。”但是我個(gè)人還是認(rèn)為建立robots.txt還是必須的,哪怕這個(gè) robots.txt文件是一個(gè)空白的文本文檔都可以。因?yàn)槲覀兊木W(wǎng)站畢竟不是僅僅會(huì)被百度收錄,同時(shí)也會(huì)被其他搜索引擎收錄的,所以,上傳一個(gè) robots.txt文件還是沒有什么壞處的。

 

  如何寫一個(gè)合理的robots.txt文件?

 

  首先我們需要了解robots.txt文件的一些基本語法。

  語法作用

       寫法

 

  允許所有搜索引擎訪問網(wǎng)站的所有部分

  或者建立一個(gè)空白的文本文檔,命名為robots.txt

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

 

  禁止所有搜索引擎訪問網(wǎng)站的所有部分

  User-agent: *

  Disallow: /

  禁止百度索引你的網(wǎng)站

  User-agent: Baiduspider

  Disallow: /

  禁止Google索引你的網(wǎng)站

  User-agent: Googlebot

  Disallow: /

  禁止除Google外的一切搜索引擎索引你的網(wǎng)站

  User-agent: Googlebot

  Disallow:

  User-agent: *

  Disallow: /

  禁止除百度外的一切搜索引擎索引你的網(wǎng)站

  User-agent: Baiduspider

  Disallow:

  User-agent: *

  Disallow: /

  禁止蜘蛛訪問某個(gè)目錄

  (例如禁止admin\css\images被索引)

  User-agent: *

  Disallow: /css/

  Disallow: /admin/

  Disallow: /images/

  允許訪問某個(gè)目錄中的某些特定網(wǎng)址

  User-agent: *

  Allow: /css/my

  Allow: /admin/html

  Allow: /images/index

  Disallow: /css/

  Disallow: /admin/

  Disallow: /images/

  使用“*”,限制訪問某個(gè)后綴的域名

  例如索引訪問admin目錄下所有ASP的文件

  User-agent: *

  Disallow: /admin/*.htm

  使用“$”僅允許訪問某目錄下某個(gè)后綴的文件

  User-agent: *

  Allow: .asp$

  Disallow: /

  禁止索引網(wǎng)站中所有的動(dòng)態(tài)頁面

  (這里限制的是有“?”的域名,例如index.asp?id=1)

  User-agent: *

  Disallow: /*?*

  有些時(shí)候,我們?yōu)榱斯?jié)省服務(wù)器資源,需要禁止各類搜索引擎來索引我們網(wǎng)站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還可以采取直接屏蔽圖片后綴名的方式。具體辦法如下。

  語法作用

  寫法

  禁止Google搜索引擎抓取你網(wǎng)站上的所有圖片

  (如果你的網(wǎng)站使用其他后綴的圖片名稱,在這里也可以直接添加)

  User-agent: Googlebot

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  禁止百度搜索引擎抓取你網(wǎng)站上的所有圖片

  User-agent: Baiduspider

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  除了百度之外和Google之外,禁止其他搜索引擎抓取你網(wǎng)站的圖片

  (注意,在這里為了讓各位看的更明白,因此使用一個(gè)比較笨的辦法——對于單個(gè)搜索引擎單獨(dú)定義。)

  User-agent: Baiduspider

  Allow: .jpeg$

  Allow: .gif$

  Allow: .png$

  Allow: .bmp$

  User-agent: Googlebot

  Allow: .jpeg$

  Allow: .gif$

  Allow: .png$

  Allow: .bmp$

  User-agent: *

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  僅僅允許百度抓取網(wǎng)站上的“JPG”格式文件

  (其他搜索引擎的辦法也和這個(gè)一樣,只是修改一下搜索引擎的蜘蛛名稱即可)

  User-agent: Baiduspider

  Allow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  僅僅禁止百度抓取網(wǎng)站上的“JPG”格式文件

  User-agent: Baiduspider

  Disallow: .jpg$

 

  在了解了以上這些基礎(chǔ)的語法之后,對于robots.txt的寫法各位已經(jīng)有了一個(gè)大概的概念了,不過在學(xué)習(xí)寫作robots.txt文件時(shí),我們還必須要了解一些大型搜索引擎的蜘蛛名稱,這樣可以便于我們寫做robots.txt文件。

 

  蜘蛛名稱

  作用

  Googlebot

  Google對一般網(wǎng)頁的索引蜘蛛

  Googlebot-Mobile

  Google對于移動(dòng)設(shè)備,如手機(jī)網(wǎng)頁的索引蜘蛛

  Googlebot-Image

  Google專門用來抓取圖片的蜘蛛

  Mediapartners-Google

  這是Google專門為放置了Google Adsense廣告聯(lián)盟代碼的網(wǎng)站使用的專用蜘蛛,只有網(wǎng)站放置了Google Adsense代碼的情況下,Google才會(huì)使用這個(gè)蜘蛛。這個(gè)蜘蛛的作用是專門抓取Adsense廣告內(nèi)容

  Adsbot-Google

  這是Google專門為Google Adwords客戶設(shè)計(jì)的蜘蛛,如果你使用了Google的Adwords服務(wù),那么這個(gè)蜘蛛就會(huì)派出這個(gè)蜘蛛來衡量放置了你廣告的網(wǎng)站的質(zhì)量。

  百度蜘蛛Baiduspider

  百度的綜合索引蜘蛛

  雅虎蜘蛛:Yahoo! Slurp

  雅虎的綜合索引蜘蛛

  雅虎搜索引擎廣告蜘蛛Yahoo!-AdCrawler

  雅虎專門為Yahoo!搜索引擎廣告開發(fā)的專用蜘蛛

  網(wǎng)易有道蜘蛛YodaoBot

  網(wǎng)易有道搜索引擎綜合索引蜘蛛

  騰訊SOSO蜘蛛Sosospider

  騰訊SOSO綜合索引蜘蛛

  搜狗蜘蛛sogou spider

  搜狗綜合索引蜘蛛

  MSNBot

  Live綜合索引蜘蛛

 

  注意:以上蜘蛛名稱請按照圖表區(qū)分大小寫

 

  在上面這些搜索引擎蜘蛛中,我們最常用的就是Googlebot和Baiduspider,因此對這兩個(gè)蜘蛛的用法要特別注意。

 

  以上的robots.txt文件可以幫助我們對于搜索引擎的訪問做一個(gè)限制,這里需要注意的有幾個(gè)方面。

 

  1、 robots.txt文件必須處于網(wǎng)站根目錄下,而且必須命名為robots.txt

  2、 robots.txt文件的文件名全部是小寫字母,沒有大寫字母。

  3、如果對于robots.txt文件的寫法把握不準(zhǔn),那么可以直接放一個(gè)空的文本文檔,命名為robots.txt即可。

 

  好了,以上我們介紹了robots.txt的寫法。這時(shí)候有一個(gè)問題,有些時(shí)候我們會(huì)遇到一些實(shí)際的特殊情況,那么遇到特殊情況我們應(yīng)當(dāng)怎樣處理呢?一下就對限制搜索引擎的原標(biāo)簽(META)做一個(gè)介紹。

 

  第一種情況:限制網(wǎng)頁快照

 

  很多搜索引擎都提供一個(gè)網(wǎng)頁快照的功能。但是網(wǎng)頁快照功能卻有很多的弊端,例如事實(shí)內(nèi)容在網(wǎng)頁快照中更新不及時(shí)、索引網(wǎng)頁快照浪費(fèi)大量的服務(wù)器資源等。因此,我們有些時(shí)候可能并不需要搜索引擎來索引我們某個(gè)頁面的網(wǎng)頁快照。

 

  解決這樣問題的辦法很簡單,只需要在你的網(wǎng)頁元標(biāo)記中(和之間)放置如下的一段代碼。

  以上的一段代碼限制了所有的搜索引擎建立你的網(wǎng)頁快照。如果我們需要僅僅限制一個(gè)搜索引擎建立快照的話,就可以像如下這樣去寫

  需要注意的是,這樣的標(biāo)記僅僅是禁止搜索引擎為你的網(wǎng)站建立快照,如果你要禁止搜索引擎索引你的這個(gè)頁面的話,請參照后面的辦法。

 

  第二種情況:禁止搜索引擎抓取本頁面。

 

  在SEO中,禁止搜索引擎抓取本頁面或者是允許搜索引擎抓取本頁面是經(jīng)常會(huì)用到的。因此我們需要對這一部分重點(diǎn)做一次討論。

  為了讓搜索引擎禁止抓取本頁面,我們一般的做法是在頁面的元標(biāo)記中加入如下的代碼:

  在 這里,META NAME="ROBOTS"是泛指所有的搜索引擎的,在這里我們也可以特指某個(gè)搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"、META NAME="www.nfrencai.com"等。content部分有四個(gè)命令:index、noindex、follow、nofollow,命令 間以英文的“,”分隔。

  INDEX命令:告訴搜索引擎抓取這個(gè)頁面

  FOLLOW命令:告訴搜索引擎可以從這個(gè)頁面上找到鏈接,然后繼續(xù)訪問抓取下去。

  NOINDEX命令:告訴搜索引擎不允許抓取這個(gè)頁面

  NOFOLLOW命令:告訴搜索引擎不允許從此頁找到鏈接、拒絕其繼續(xù)訪問。

  根據(jù)以上的命令,我們就有了一下的四種組合

 ?。嚎梢宰ト”卷摚铱梢皂樦卷摾^續(xù)索引別的鏈接

 ?。翰辉S抓取本頁,但是可以順著本頁抓取索引別的鏈接

  :可以抓取本頁,但是不許順著本頁抓取索引別的鏈接

  :不許抓取本頁,也不許順著本頁抓取索引別的鏈接。

  這里需要注意的是,不可把兩個(gè)對立的反義詞寫到一起。

  或者直接同時(shí)寫上兩句

  這里有一個(gè)簡便的寫法,如果是

  的形式的話,可以寫成:

  如果是

  的形式的話,可以寫成:

  當(dāng)然,我們也可以把禁止建立快照和對于搜索引擎的命令寫到一個(gè)命令元標(biāo)記中。從上面的文章中我們得知,禁止建立網(wǎng)頁快照的命令是noarchive,那么我們就可以寫成如下的形式:

  如果是對于單獨(dú)的某個(gè)搜索引擎不允許建立快照,例如百度,我們就可以寫成:

  如果在元標(biāo)記中不屑關(guān)于蜘蛛的命令,那么默認(rèn)的命令即為如下

  因此,如果我們對于這一部分把握不準(zhǔn)的話,可以直接寫上上面的這一行命令,或者是直接留空。

  在SEO中,對于蜘蛛的控制是非常重要的一部分內(nèi)容,所以希望各位看官準(zhǔn)確把握這部分的內(nèi)容。

上一條資訊|返回欄目頁|下一條資訊

易勢沈陽建站專業(yè)機(jī)構(gòu),以DIV+CSS為主,js/jQuery為輔,制作利于優(yōu)化,頁面美觀的優(yōu)質(zhì)網(wǎng)站!

top

網(wǎng)絡(luò)策劃公司|新浪官方微博|大連網(wǎng)站建設(shè)