Robots协议代表了一种契约精神,互联网企业只有遵守这一规则,才能保证网站及用户的隐私数据不被侵犯。违背Robots协议将带来巨大安全隐忧——此前,曾经发生过这样一个真实的案例:国内某公司员工郭某给别人发了封求职的电子邮件,该Email存储在某邮件服务公司的服务器上。因为该网站没有设置robots协议,导致该Email被搜索引擎抓取并被网民搜索到,为郭某的工作生活带来极大困扰。
如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些不对搜索引擎开放。但是不是所有的搜索引擎对robots文件的都是这样的。
百度对robots.txt是有反应的,但比较慢,在减少禁止目录抓取的同时也减少了正常目录的抓取。原因应该是入口减少了,正常目录收录需要后面再慢慢增加。
Google对robots.txt反应很到位,禁止目录马上消失了,部分正常目录收录马上上升了。/comment/目录收录也下降了,还是受到了一些老目标减少的影响。
搜狗抓取呈现普遍增加的均势,部分禁止目录收录下降了。
总结一下:Google似乎最懂站长的意思,百度等其它搜索引擎只是被动的受入口数量影响了。
原文网址:http://www.szleyou.net/433.html