阿里巴巴和淘宝网的robots.txt展示
Sep 10th, 2008 by 卫强
因与百度未来利益纷争,淘宝决定禁止百度搜索引擎爬行其网页。
笔者检查了淘宝网的robots.txt文档,发现确实如此。
++++++++ 淘宝网robots.txt文档 ++++++++
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
++++++++ http://www.taobao.com/robots.txt ++++++++
进而转向阿里巴巴网站,查看其robots.txt文档,却是另一番景象。
++++++++ 阿里巴巴robots.txt文档 ++++++++
# file: robots.txt,v 1.0 2002/09/23 created by Tsing Kong
# www.alibaba.com
# 按照robots.txt的标准写法,规定一些不允许爬虫爬的页面或目录。
# robots.txt 的写法参照
# Format is:
# User-agent:
# Disallow: |
# —————————————————————————–
User-agent: *
Disallow: /bin/
Disallow: /trade/user/
Disallow: /trade/express
Disallow: /trade/feedback/
Disallow: /trade/pm/apply/
Disallow: /trade/globalbuyer/feedback/
Disallow: /apps/
Disallow: /buy/
Disallow: /memberhome/
Disallow: /minisite/
Disallow: /trade/createimage
++++++++ http://www.alibaba.com/robots.txt ++++++++
阿里巴巴和淘宝是一家公司,为何对待同一搜索引擎态度不一呢?
原因无非有这么几条,
1,百度被视为淘宝潜在竞争对手,其网络商城必然将与淘宝短兵相接。
2,当前的百度为淘宝带去的流量有限,淘宝的商业运营已摆脱了百度搜索引擎初级阶段。
3,阿里巴巴与百度业务未有正面冲突,禁止搜索引擎爬行意味着失去部分“高质量”流量,阿里巴巴绝不会干如此傻事。
利益作怪,行为的背后是利益!