當前位置:日韩中文字幕2019 > 常見問題

robots該怎麽寫?協議標准是什麽?

2016-11-24

分类:常見問題  |  VISITORS:

首先我們得要知道robots文件時幹什麽的?存放的位置在哪裏?

robots文件主要是告訴搜素引擎,網站哪些頁面可以抓取,哪些頁面拒絕抓取,下面我們看下幾個截圖!

京东robots截图

京東牛B吧,拒絕了360,一淘網,

disallow的主要作用是拒絕某些指定的搜索引擎抓取我們不想讓他看見的頁面,作爲企業站的我們肯定是希望搜索引擎來抓取我們那麽這個disallow到底有什麽具體應用呢,其實我們可以用disallow拒絕404錯誤的地址頁面或者重複的頁面!

 User-agent: * (声明禁止所有的搜索引擎抓取以下内容)

Disallow:/blog/(禁止網站blog欄目下所有的頁面。比如說:/blog/123.html)

Disallow:/api(比如說:/apifsdfds/123.html也會被屏蔽。)

 Disallow:*?*(只要你的路徑裏面帶有問號的路徑,那麽這條路徑將會被屏蔽。比如說:http://xxxxx/?expert/default.html將會被屏蔽。)

Disallow:/*.php$(意思是以.php結尾的路徑全部屏蔽掉。)

 Sitemap:http://xxx.com/sitemap.html 網站地圖 告诉爬虫这个页面是網站地圖

User-agent: * 允许访问所有

Disallow: /   拒绝所有

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

上一篇:如何檢測頁面的iframe元素下一篇:網站空間如何監測穩定性-D監控
相關文章
結識京象

讓您知道如何利用互聯網找到創新營銷模式、找到高質量的目標客戶、挖掘有獨特賣點的産品、讓你快速突破市場困局

用 快速度、 低成本获取源源不断的订单 With the fastest speed, lowest cost, steady stream of orders

查看更多