建站想有搜索引擎流量 , 首先要建立sitemap , 之後就是robot.txt了
因為robot.txt這文檔可以告訴bot你的網站sitemap連結 , bot直接去爬 , 省時省力
除此之外 , 更可以使用robot.txt禁止訪客IP 或 禁止訪問某個目錄等等…
=======================================================================
robot.txt文件的語法主要包括了User-Agent、Disallow、Allow這三個命令。
1、User-agent:
其後面接的是具體的搜索引擎的蜘蛛的名字。如果其值設置為「*」,則表示對任何蜘蛛都有效。
在”robots.txt”文件中,可以有多條User-agent記錄,但「User-agent:*」這樣的記錄只能有一條。
如果在”robots.txt”文件中,加入”User-agent: SomeSpider “和若干Disallow、Allow行,那麼名為”SomeSpider”只受到”User-agent: SomeSpider “後面的Disallow和Allow行的限制。
2、Disallow:
不希望被訪問的URL或者文件夾,可以是完整的路徑,也可以是路徑的非空前。robots.txt文件中,至少要有一條Disallow記錄。Disallow的內容對大小寫敏感,書寫時要注意大小寫。
3、Allow:
可以被訪問的一組URL,與Disallow項相似,這個值可以是完整的路徑,也可以是路徑的前綴,Allow同樣對大小寫敏感。
robot.txt的具體寫法舉例。
禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
允許所有的搜索引擎訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者直接建一個空的robot.txt文件。
僅禁止某種蜘蛛訪問,例如google
User-agent: Googlebot
Disallow: /
僅允許某種蜘蛛訪問,例如google
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止搜索引擎訪問網站的特定目錄
User-agent: *
Disallow: /folder1/
Disallow: /folder2/
禁止訪問以.asp 結尾的網址:
User-Agent: *
Disallow:/*.asp$
禁止訪問網站中所有的動態頁面,即禁止訪問包含問號(?)的網址
User-agent: *
Disallow: /*?*
禁止搜索引擎抓取網站上所有的jpg圖片
User-agent: *
Disallow: /*.jpg$
禁止抓取不存在的網頁。如果你的域名之前曾經建過站,那麼一般都會存在一些你網站不存在的網址。這裡建議在建站之前像搜索引擎提交刪除此域名下的所有索引。
提供sitemap位置
User-agent: *
sitemap: http://www.domain.com/sitemap.xml