robots.txt

robots.txt是搜尋引擎擷取網站資料的參考,如果有任何不想被搜尋引擎知道的目錄、檔案…等,可以透過robots.txt禁止。

image

禁止搜尋引擎找log目錄、cgi-bin目錄

User-agent: *
Disallow:

*表示全部的搜尋引擎,Disallow是不允許,不允許的東西是空的,表示整個網站都允許搜尋引擎擷取

User-agent: *
Allow: /

Allow是允許的意思,表示整個網站都允許搜尋引擎擷取

User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

禁止搜尋引擎擷取圖片

常用的搜尋引擎名稱:

Googlebot http://www.google.com –>  Google
Baiduspider http://www.baidu.com –> 百度
MSN Live Search http://www.live.com/
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com

robots.txt專門說明的網站:

http://www.robotstxt.org/

http://www.robotstxt.org/robotstxt.html

http://www.robotstxt.org/orig.html

Google有關於robots.txt的說明:https://support.google.com/webmasters/answer/156449?hl=zh-Hant&from=35237&rd=1

Wiki關於robots.txt的說明:http://en.wikipedia.org/wiki/Robots.txt

robots.txt的實際案例:

http://edition.cnn.com/robots.txt

image

http://www.google.com/robots.txt

image

robots.txt語法產生器:http://www.mcanerin.com/EN/search-engine/robots-txt.asp

image

其他網站的教學:

http://www.dami.tw/2012/11/14dami.html

http://www.how2use.net/phpbb/viewtopic.php?t=1149

http://seo.soft4fun.net/2009/06/seo%E8%A7%80%E5%BF%B5-robots-txt/

http://my-web-design.blogspot.tw/2007/09/robotstxt.html

http://ipyshare.com/seo%E5%B0%8F%E6%8A%80%E5%B7%A7%EF%BC%8D%E5%A6%82%E4%BD%95%E6%92%B0%E5%AF%ABrobots-txt%EF%BC%8C%E4%BA%86%E8%A7%A3spider%E6%90%9C%E5%B0%8B%E5%BC%95%E6%93%8E%E8%9C%98%E8%9B%9B%E7%9A%84%E9%81%8B%E4%BD%9C.html

本篇發表於 Cloud雲端, 網路, Linux, Windows。將永久鏈結加入書籤。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s