輕松玩轉wordpress中robots.txt協議寫法

据统计,目前世界上1/4的网站是由wordpress程序制作的,足以说明WP程序受欢迎程度。網站地圖sitemap和網站蘿蔔絲協議(robots.txt)這兩項也是網站優化必備的基礎工作。robots協議來告訴搜索引擎蜘蛛哪些頁面鏈接是不需要被抓取的,那對于wordpress來講有很多程序文件及標簽或是自動的feed文件完成沒有必要收錄,那我們可以通過對robots的寫法優化來實現收錄內容最優。

robots协议

首先要知道robots.txt主要作用?

robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在程序的根目录下。

WordPress平台下robots.txt協議詳解

1、User-agent: *

允許所有搜索引擎抓取網站。

2、Disallow: /wp-admin/、Disallow: /wp-content/和 Disallow: /wp-includes/

用于告訴搜索引擎不要抓取後台程序文件頁面。

3、Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*

禁止搜索引擎抓取評論分頁等相關鏈接。

4、Disallow: /category/*/page/和 Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。(不同 WordPress 站点可能会有所不同,大家可以根据需要添加)

5、Disallow: /*/trackback 和 Disallow: /trackback/

禁止搜索引擎抓取收录 trackback 等垃圾信息

6、Disallow: /feed、Disallow: /*/feed 和 Disallow: /comments/feed

禁止搜索引擎抓取收录 feed 链接,feed 只用于订阅本站,与搜索引擎无关。

7、Disallow: /?s=*和 Disallow: /*/?s=*\

禁止搜索引擎抓取站內搜索結果

8、Disallow: /attachment/

禁止搜索引擎抓取附件頁面,比如毫無意義的圖片附件頁面。

9、Disallow: /wp-*.php

禁止搜索引擎抓取 WordPress 网站根目录的以 wp 开头的文件。

10、Sitemap: http://yourdomain.com/sitemap.html

这个就是为了方便搜索引擎利用的網站地圖,具体的根据自己网站需要添加。

robots使用示例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

实例分析:淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *

Allow: /

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

例5.一個簡單例子

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。

需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/ /~joe”。

例6.特殊寫法

如果您要攔截除Baiduspider以外的所有搜索引擎不能抓取您的網站,可以使用下列語法:

User-agent:

Disallow: /

User-agent: Baiduspider

Disallow:

尽管robots.txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots.txt文件,建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别 。——摘自百度百科

WordPress中robots写法


关于网站 robots.txt 的内容还有很多很多,这里三七SEO的网站是用WP程序做的,就只是列举了 WordPress 最常用的一些规则罢了,希望能帮助到大家!

wordpress程序中robots.txt文件寫法大全

User-agent: * ? ? ? ? ? ? ?//设置robots规则适用的浏览者身份为全部UA身份
Disallow: /*?* ? ? ? ? ? ? //屏蔽掉页面中的动态路径
Disallow: /?p=* ? ? ? ? ? ? //屏蔽掉非固定链接的文章页面路径,因为每个页面中都会有一个shortlink使用的是?p= 的路径。
Disallow: /index.php ? ? ? ? ? ? //屏蔽掉天堂社区默认页面的index.php 页面天堂社区
Disallow: /wp-admin ? ? ? ? ? ? //屏蔽掉后台登陆页面天堂社区,主要是考虑到服务器安全
Disallow: /wp-content/plugins ? ? ? ? ? ? //屏蔽掉wordpress的插件目录
Disallow: /wp-content/themes ? ? ? ? ? ? //屏蔽掉wordpress的模板目录
Disallow: /wp-includes ? ? ? ? ? ? //屏蔽掉wordpress的底层程序目录
Disallow: /trackback ? ? ? ? ? ? //屏蔽wordpress的页面回评路径
Disallow: /*/*/trackback ? ? ? ? ? ? //屏蔽wordpress分类目录、文章页面的回评路径
Disallow: /feed ? ? ? ? ? ? //屏蔽wordpress的内容订阅路径
Disallow: /*/*/feed ? ? ? ? ? ? //屏蔽wordpress分类目录、文章页面的订阅路径
Disallow: /comments/feed ? ? ? ? ? ? //屏幕wordpress評論的订阅路径
Disallow: /page/ ? ? ? ? ? ? //屏蔽默认的翻页路径
Disallow: /*/*/page/ ? ? ? ? ? ? //屏蔽分类目录的翻页路径
Disallow: /page/1$ ? ? ? ? ? ? //屏蔽翻页路径中的数字路径
Disallow: /tag/ ? ? ? ? ? ? //屏蔽标签页面
Disallow: /?s=* ? ? ? ? ? ? //屏蔽搜索结果路径,主要是避免搜索结果的缓存被搜索引擎收录
Disallow: /?r=*
Disallow: /*/comment-page-*
Disallow: /*?replytocom*
Disallow: /date/ ? ? ? ? ? ? //屏蔽按日期分类显示的列表页面
Disallow: /author/ ? ? ? ? ? ? //屏蔽作者文章列表页面
Disallow: /category/ ? ? ? ? ? ? //屏蔽以category为起始路径的分类路径,如果您没有使用插件生成不带category前缀的路径时,请不要使用此项规则。
Disallow: /?p=*&preview=true
Disallow: /?page_id=*&preview=true
Disallow: /wp-login.php ? ? ? ? ? ? //屏蔽后台登陆页面
Sitemap: http://www.youdomain.com/sitemap.xml ? ? ? ? ? ? //引导蜘蛛爬取網站地圖
Sitemap: http://www.youdomain.com/sitemap_baidu.xml ? ? ? ? ? ? //引导百度蜘蛛爬取網站地圖

本文三七SEO原創,未經允許,嚴禁轉載!:三七SEO培訓 » 輕松玩轉wordpress中robots.txt協議寫法

赞 (3)

評論 0

  • 昵稱 (必填)
  • 天堂社区 (必填)
  • 網址