網站不被收錄,應該再次登錄嗎?
如果你發現過了一個月,搜尋器仍未收錄你的網站,又或效果不理想,是否應該重複以上步驟再次登錄呢?
我建議你要注意兩點,第一是你的網站是否有一個 robots.txt 的檔案在根目錄?內容寫了什麼?
簡單說 robots.txt 的功能是告訴搜尋器不要收錄某一些網頁,甚至整個網站也不收錄。
如何撰寫一個 Robots.txt 檔案
Robots.txt 檔案是特殊的文字檔,永遠位於 Web 伺服器的根目錄。
這個檔案包含 Web 蜘蛛,告訴他們能夠搜尋的權限的限制。
robots.txt 檔案會限制檢索網頁的搜尋引擎漫遊器存取您的網站。這些自動化的漫遊器在存取網站的網頁前,會先檢查網站是否擁有阻止它們存取特定網頁的
robots.txt 檔案 (所有正派的漫遊器都會遵照 robots.txt 檔案中的指令去做,但有些漫遊器解讀指令的方式可能有些不同。
需要注意的是,robots.txt 不具強制性,有些垃圾郵件發送器和其他麻煩程式可能會逕自忽略它。因此,我們建議用密碼來保護機密資訊)。
只有當您網站中包含您不希望搜尋引擎編入索引的內容時,您才會需要 robots.txt 檔案。
如果您希望搜尋引擎為您網站的所有內容建立索引,就不需要 robots.txt 檔案 (連空白的 robots.txt
檔案都不需要)。
雖然 Google 不會對 robots.txt
所封鎖的網頁內容進行檢索或建立索引,但如果我們在網路上的其他網頁中找到這些網址,仍然會建立這些網址的索引。因此,網頁的網址以及其他可能的公開資訊,例如網站連結中的錨定文字,都會出現在
Google 搜尋結果中。
如何建立 robots.txt 檔案
決定 Web 伺服器上的哪些目錄與檔案不供編目程式存取。
檢查 Web 伺服器上是否有您不希望搜尋引擎編入索引的已發佈內容。
列出 Web 伺服器上可供公開存取的檔案與目錄中,您要封鎖的檔案與目錄。
範例︰您可能希望 bot 略過 /system、/scripts 與 /tmp (或您伺服器架構中對等的目錄) 等網站目錄的編目作業。
決定除了通用的編目程式指示詞以外,是否需要為特定搜尋引擎 bot 指定額外的指示。
檢查 Web 伺服器的訪客來源記錄檔,查看是否有您想封鎖的 bot 在為您的網站進行編目。您可以在適用於所有 bot 的通用指示詞之外,加入針對特定 bot
的指示詞。
注意 許多 bot 在發現專為它們建立的指示時,都會忽略列於通用區段的指示詞。因此,在檔案中某個 bot
專屬的區段內,除了您專為其建立的指示詞之外,您可能還需要重複所有的通用指示詞。
使用文字編輯器建立 robots.txt 檔
使用 Windows 記事本等文字編輯器建立名為 robots.txt 的新檔案 (請使用與此完全相同的檔案名稱,所有字母不需大寫)。
在 robots.txt 檔裡面,bot 是參照為使用者代理程式。
請在檔案開頭處開始編輯第一段指示詞,加上此行:User-agent: *,作為適用於所有 bot 的指示詞區段。
建立「不允許」(Disallow) 指示詞清單,列出您要封鎖的內容。
範例 根據上文使用的目錄範例,該指示詞組看起來應該像:
User-agent: *
Disallow: /system/
Disallow: /scripts/
Disallow: /tmp/
注意︰
不能在同一行列出多個內容參照,因此您需要為各個欲封鎖的目錄或檔案,分別建立一行新的 Disallow 指示詞。
但是您可以使用萬用字元。
您也可以對內容被封鎖的目錄中所儲存的檔案使用 Allow 指示詞,使該檔案不被封鎖。
如果您已建立列出網站上最重要網頁的 XML SiteMap 檔,您可以在 robots.txt 檔的結尾處加入一行獨立的指示詞來參照 SiteMap 檔,藉此將
bot 指向 SiteMap 檔。
範例 SiteMap 檔通常儲存於網站根目錄。上述 SiteMap 指示詞的範例如下:
Sitemap: http://www.your-url.com/sitemap.xml。
驗證 robots.txt 檔來檢查錯誤
robots.txt 檔建立完成之後,建議您驗證程式碼。若要驗證,請使用網路上的 robots.txt 驗證工具。
您不需要將新的 robots.txt 檔提交至搜尋引擎。搜尋引擎 bot 造訪您的網站時,會自動在網站根目錄尋找名為 robots.txt
的檔案。找到之後,bot 會先讀取該檔,看看是否有其適用的指示詞。
您也可以在網站上各網頁最上方的 <meta> 標籤之中放置 noindex,nofollow,index,follow。
如果 bot 發現 robots.txt 檔內的 REP 指示詞與網頁 <meta> 標籤中的指示詞有所衝突,會優先遵守 <meta> 標籤中的指示詞。
最簡單的 robots.txt 檔案使用兩項規則:
User-agent:遵循以下規則的漫遊器
Disallow:您想要封鎖的網址
系統會將這兩行視為檔案中的一個項目。您想包含多少項目都可以。您可以在一個項目中納入多個 Disallow 行和多個 user-agent。
robots.txt 檔案中的每個部分都是獨立的,並非根據前一個部分來建置。舉例來說:
User-agent: *
Disallow: /<資料夾1>/
User-Agent: Googlebot
Disallow: /<資料夾2>/
在這個範例中,只有符合 /<資料夾2>/ 的網址不允許 Googlebot 檢索。
使用者代理程式與漫遊器,使用者代理程式是指特定的搜尋引擎漫遊器。網頁漫遊器資料庫列有許多常見的漫遊器。您可將某個項目套用至單一個漫遊器
(列出名稱即可),或套用至所有漫遊器 (列出一個星號即可)。套用至所有漫遊器的項目看起來如下:
User-agent: *
Google 使用數個不同的漫遊器 (使用者代理程式)。我們用來搜尋網頁的漫遊器是「Googlebot」。其他像是 Googlebot-Mobile 和
Googlebot-Image 等漫遊器,會遵循您為 Googlebot 設定的規則,但您也可以個別為其設定特殊的規則。
封鎖使用者代理程式
Disallow 行會列出您想封鎖的網頁。您可以列出特定的網址或模式。項目須以正斜線 (/) 開頭。
如要封鎖整個網站,請使用正斜線。
Disallow: /
如要封鎖目錄及其所有內容,請在目錄名稱後加上正斜線。
Disallow: /垃圾目錄/
如要封鎖某個網頁,請列出該網頁。
Disallow: /私人檔案.html
如要從 Google 圖片移除特定圖片,請加入下列內容:
User-agent: Googlebot-Image
Disallow: /圖片/花.jpg
如要從 Google 圖片移除您網站上的所有圖片:
User-agent: Googlebot-Image
Disallow: /
如要封鎖特定類型 (例如 .gif) 的檔案,請使用下列指令:
User-agent: Googlebot
Disallow: /*.gif$
若要防止漫遊器檢索您網站上的網頁,但仍在網頁上顯示 AdSense 廣告,請禁止 Mediapartners-Google
以外的所有漫遊器。這樣就會將這些網頁排除在搜尋結果之外,但 Mediapartners-Google
漫遊器仍然可以分析網頁,以決定要放送的廣告。Mediapartners-Google 漫遊器不會與其他的 Google 使用者代理程式共用網頁。例如:
User-agent: *
Disallow: /
User-agent: MediaPartners-Google
Allow: /
請注意,指令必須區分大小寫。舉例來說,Disallow: /link_file.asp 會封鎖 http://www.example.com/link_file.asp,但會允許
http://www.example.com/Link_file.asp。Googlebot 會忽略 robots.txt 檔案中的空白字元 (尤其是空行)
以及未知的指令。
Googlebot 支援透過 robots.txt 檔案提交 Sitemap 檔案 (英文網頁)。
模式媒合
Googlebot (但並非所有搜尋引擎) 遵循某些模式媒合。
您可以使用星號 (*) 來媒合一串字元。例如,假設您要封鎖任何試圖存取「soft」開頭子目錄的行為,請使用下列指令:
User-agent: Googlebot
Disallow: /soft*/
如何封鎖任何試圖存取含有問號 (?) 的網址的行為 (明確來說,這種網址以您的網域名稱為開頭,後面接著某個字串,再接一個問號,然後再接某個字串):
User-agent: Googlebot
Disallow: /*?
如要指定媒合網址的結尾,請使用「$」。例如,假設您要封鎖以 .xls 結尾的網址,請使用下列項目:
User-agent: Googlebot
Disallow: /*.xls$
您可以將 Allow 指令與此模式媒合結合使用。例如,假設「?」代表一個工作階段 ID,您可能想要排除所有包含相同工作階段 ID 的網址,以確保
Googlebot 不會檢索重複網頁。但是以「?」結尾的網址又可能是您想要包含在內的網頁。對於這種情形,您可以將 robots.txt 檔案設定如下:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *? 指令將封鎖所有包括「?」的網址
(更具體地說,它將封鎖所有以您的網域名稱開頭,後跟任意字串,再跟一個問號,然後再跟任意字串的網址)。
Allow: /*?$ 指令將允許任何以「?」結尾的網址
(更具體地說,它將封鎖所有以您的網域名稱開頭,後跟任意字串,再跟一個「?」,而「?」後面沒有任何字元的網址)。
robots.txt
文件對抓取網絡的搜索引擎漫遊器(稱為漫遊器)進行限制。這些漫遊器是自動的,在它們訪問網頁前會查看是否存在限制其訪問特定網頁的 robots.txt
文件。如果你想保護網站上的某些內容不被搜索引擎收入的話,robots.txt 是一個簡單有效的工具。這裡簡單介紹一下怎麼使用它。
如何放置 Robots.txt 文件
robots.txt 自身是一個文本文件。它必須位於域名的根目錄中並 被命名為"robots.txt"。位於子目錄中的 robots.txt
文件無效,因為漫遊器只在域名的根目錄中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt
則不是。
使用 robots.txt 文件攔截或刪除整個網站
要從搜索引擎中刪除您的網站,並防止所有漫遊器在以後抓取您的網站,請將以下 robots.txt 文件放入您服務器的根目錄:
User-agent: *
Disallow: /
要只從 Google 中刪除您的網站,並只是防止 Googlebot 將來抓取您的網站,請將以下 robots.txt 文件放入您服務器的根目錄:
User-agent: Googlebot
Disallow: /
每個端口都應有自己的 robots.txt 文件。尤其是您通過 http 和 https 托管內容的時候,這些協議都需要有各自的 robots.txt
文件。例如,要讓 Googlebot 只為所有的 http 網頁而不為 https 網頁編製索引,應使用下面的 robots.txt 文件。
對於 http 協議 (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
對於 https 協議 (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
允許所有的漫遊器訪問您的網頁
User-agent: *
Disallow:
(另一種方法: 建立一個空的 "/robots.txt" 文件, 或者不使用robot.txt。)
使用 robots.txt 文件攔截或刪除網頁
您可以使用 robots.txt 文件來阻止 Googlebot 抓取您網站上的網頁。 例如,如果您正在手動創建 robots.txt 文件以阻止
Googlebot 抓取某一特定目錄下(例如︰soft)的所有網頁,可使用以下 robots.txt 項目:
User-agent: Googlebot
Disallow: /soft/
要阻止 Googlebot 抓取特定文件類型(例如︰.swf)的所有文件,可使用以下 robots.txt 項目:
User-agent: Googlebot
Disallow: /*.swf
要阻止 Googlebot 抓取所有包含 ? 的網址(具體地說,這種網址以您的域名開頭,後接任意字符串,然後是問號,而後又是任意字符串),可使用以下項目:
User-agent: Googlebot
Disallow: /*?
盡管我們不抓取被 robots.txt
攔截的網頁內容或為其編製索引,但如果我們在網路上的其他網頁中發現這些內容,我們仍然會抓取其網址並編製索引。因此,網頁網址及其他公開的信息,例如指向該網站的鏈接中的定位文字,有可能會出現在
Google 搜索結果中。不過,您網頁上的內容不會被抓取、編製索引和顯示。
作為網站管理員工具的一部分,Google提供了robots.txt分析工具 。它可以按照 Googlebot 讀取 robots.txt
文件的相同方式讀取該文件,並且可為 Google user-agents(如 Googlebot)提供結果。我們強烈建議您使用它。 在創建一個
robots.txt 文件之前,有必要考慮一下哪些內容可以被用戶搜得到,而哪些則不應該被搜得到。 這樣的話,通過合理地使用 robots.txt ,
搜索引擎在把用戶帶到您網站的同時,又能保證隱私信息不被收錄。
|