
文章分類:建站知識 發(fā)布時(shí)間:2017-10-18 03:08:58 原文作者:admin 閱讀1689
robots.txt文件問題攻略大全,本文中將大家常遇到的關(guān)于robots.txt文件的相關(guān)問題進(jìn)行匯總,希望大家又長知識了。
1、robots.txt是什么?
解答:robots.txt是一個純文本文件。簡單說就是一個互聯(lián)網(wǎng)協(xié)議,是針對搜索引擎蜘蛛抓取網(wǎng)站時(shí)的一個提前聲明。通過robots.txt文件告訴蜘蛛,該網(wǎng)站的哪些文件你能訪問抓取,哪些文件不要去訪問抓取,從而規(guī)避一些隱私文件或不想被收錄的文件被蜘蛛爬取到,起到一個引導(dǎo)蜘蛛的作用。
搜索引擎蜘蛛爬取網(wǎng)站的第一個文件會優(yōu)先選擇robots.txt文件,所以在引導(dǎo)蜘蛛時(shí)robots.txt文件就顯得尤為重要。
2、robots.txt寫法
user-agent:* 這里的星號,代表泛指所有的搜索引擎,如需要特指某個蜘蛛,則將各個搜索引擎蜘蛛的名稱寫下即可。各大常用搜索引擎蜘蛛名稱如下:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
bing蜘蛛:bingbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
有道蜘蛛:YodaoBot和OutfoxBot
熱土蜘蛛:Adminrtspider
搜狗蜘蛛:sogou spider
SOSO蜘蛛:sosospider
360搜蜘蛛:360spider
屏蔽所有蜘蛛寫法:
user-agent:*
disallow: /
提示:這里的斜杠代表網(wǎng)站根目錄。
屏蔽單個搜索引擎蜘蛛寫法(如屏蔽谷歌):
user-agent:googlebot
Disallow: /
屏蔽單個目錄:
user-agent:*
Disallow: /a/
提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目錄下的所有文件。
屏蔽單個頁面:
user-agent:*
Disallow: /123.html
釋放已屏蔽目錄中的某個文件:
user-agent:*
Disallow: /a/
Allow: /a/img/
屏蔽所有動態(tài)頁面:
user-agent:*
Disallow: /*?*
加入網(wǎng)站地圖文件:
user-agent:*
Sitemap: http://www.wxask.com/sitemap.xml
Sitemap: http://www.haoyihai/sitemap.html
提示:盡量把鏈接寫完整,免得抓取出錯。
關(guān)于robots具體屏蔽那些文件,請閱讀《robots具體禁止什么文件》一文,文中有詳細(xì)闡述,這里不細(xì)講。
3、robots.txt放在哪里?
解答:robots.txt必須指定放在一個網(wǎng)站的根目錄下,且文件名必須全部小寫。
相應(yīng)URL地址例如:
http://www.wxask.com/robots.txt
4、robots.txt文件存在限制指令
解答:這個也就是大家,常看到某些網(wǎng)站,快照描述寫著“由于該網(wǎng)站的robots.txt文件存在限制指令(限制搜索引擎抓取),系統(tǒng)無法提供該頁面的內(nèi)容”,其實(shí)就是該網(wǎng)站屏蔽了搜索引擎抓取,淘寶最為明顯。
就是這個寫法:
user-agent:*
disallow: /
解決辦法,進(jìn)入網(wǎng)站根目錄,找到robots.txt文件,刪除掉里面的“disallow: /”,然后等待快照更新就可以了。
5、robots.txt怎么看?
解答:都是進(jìn)入網(wǎng)站空間,找到根目錄下的robots.txt文件,打開觀察寫法,文件屏蔽,查看是否有誤或新增即可。直接觀察可以在瀏覽器輸入主域名+robots.txt即可觀察,修改還是要到服務(wù)器空間或ftp里面處理。
6、robots.txt可以刪除嗎?
解答:可以刪除,但是對蜘蛛很不友好,建議不要刪除,且把內(nèi)容寫完整。
7、robots.txt允許收錄
解答:允許收錄也就是寫法,參考第二點(diǎn)寫法規(guī)則即可。
8、robots.txt安全防滲透說明
解答:一般robots.txt文件中,我們會寫到屏蔽后臺路徑如下:
user-agent:*
Disallow: /admin/
這個路徑我們不能像上面這樣直接寫出來,很容易被別人窺視加以利用,所以一般我們需要設(shè)置復(fù)雜一點(diǎn),并用星號泛指來表示。
如下:
user-agent:*
Disallow: /a*n/
將中間部分用泛指表示出來,蜘蛛是可以根據(jù)前后對照識別出文件,但別人想要知道就很難了,可防止被攻擊,增加安全性。
9、robots.txt文件本身安全嗎?
解答;robots.txt本身是沒安全問題的,但如果空間被入侵,robots.txt文件被修改可能就會出錯了。不過也很容易察覺到,一旦你發(fā)現(xiàn)異常了,修改回來就好了,所以robots.txt文件也需要時(shí)??纯词欠裼袉栴},做好安全維護(hù)工作。
好了以上就是這些內(nèi)容,相信大家已經(jīng)掌握robots要訣了,還沒明白的就多看幾遍。
十堰網(wǎng)絡(luò)公司 十堰網(wǎng)站優(yōu)化 13872831164
微信公眾賬號
添加"章魚網(wǎng)絡(luò)"
? Copyright @2016-2023 十堰章魚網(wǎng)絡(luò)科技 All Rights Reserved 鄂ICP備16021580號-1
關(guān)于我們 資訊&分享 微信公眾號廣告投放 今日頭條廣告投放 加入我們 微信平臺