爬虫 – 海浪家园

搜索引擎的机器人来访

网络学院没有评论 »

8 月 242010

服务器换了IP，半夜好多机器人来访。

google bot
203.208.60.x

百度 bot
220.181.7.x

未知 bot
110.75.171.x
110.75.172.x
110.75.173.x
110.75.174.x
110.75.175.x
110.75.176.x

淘宝屏蔽百度百度回应将开绿色通道

网络学院没有评论 »

9 月 102008

继淘宝宣布屏蔽百度之后,昨日(9日)双方的口水战再次达到白热化.分析人士指出,此举无疑打响了百度C2C和淘宝争夺市场和用户的惨烈战役的第一枪.淘宝前日在最新一期的消费者保障计划中宣布,将对百度搜索引擎进行彻底屏蔽,而对谷歌、雅虎等搜索也有部分屏蔽,屏蔽的具体原因会在近期宣布.

　　淘宝:态度强硬坚持屏蔽

淘宝网新闻发言人卢先生表示:淘宝网屏蔽搜索引擎由来已久,只不过此次是完全屏蔽百度.“作为一家高度商业化的平台,淘宝一直以来都会对搜索引擎实施不同程度的屏蔽,以保护用户信息、商品信息等商业数据,对百度如此,对谷歌也一样.只不过根据搜索引擎不同的做法,我们会采取不同的举措.”

对于这一策略是否会一直坚持,淘宝网官方表示,政策一旦确定,会保持稳定.淘宝内部运营人员认为,来自搜索引擎的点击极少,而且主要目的不是购物,主要是询价,无法形成有效的注册、购买等行为.

早在2007年底,淘宝就已经完全停止在百度的投放,而此前淘宝每年都在百度上有大笔投放.此前,百度在为即将上线的电子商务平台推广时,曾经在招商平台显眼位置打出如下广告:“百度公布的数字显示,淘宝的点击量有60%—70%来自百度.”但后来百度又将该广告撤下.

有业内人士称,针对“淘宝大部分点击量来自百度”的说法,淘宝此次屏蔽有叫板百度的目的.

　百度:开辟绿色通道

百度昨日对此事首次回应.百度电子商务事业部总经理李明远昨日接受本报记者专访时表示,针对淘宝全面禁止百度爬虫抓取页面,百度准备开辟绿色通道,让卖家直接向百度索引库提交网店页面链接地址,而不再需要百度爬虫过去抓取. Continue reading »

淘宝为什么屏蔽百度

网络学院没有评论 »

9 月 102008

新闻来源:经济观察网

9月8日,淘宝网宣布推出消费者保障计划第三期,其中最引人关注的一项措施是:屏蔽百度搜索引擎.消息来得太过突然,一石激起千层浪,各方评论纷纷出炉,但大多数观点指向同一个问题,淘宝要借此绞杀百度的C2C电子商务计划.“我们当然关注百度的C2C,但还没有必要紧张到绞杀的程度.真要是有这样的想法,就不会单单是屏蔽这样简单的技术手段了.”这是淘宝的一位公关管理人员对我透露的消息.

那么为什么只是全面屏蔽了百度,而不是将百度、GOOGLE等所有搜索引起一起屏蔽,而且又是在百度即将推出电子商务业务这样敏感的一个时间点进行宣布呢?

“实际上,淘宝屏蔽百度搜索的工作从2个月以前就开始了.这次事件受到关注是因为一家报纸进行报道,而消息不是我们这边发出的.既然消息已经发布了,那我们这边就正式公布一下.屏蔽百度的原因在于他们采用的是竞价排名的搜索结果呈现,这与我们通过常年积累培养出来的交易信用体制有冲突.当然对GOOGLE等搜索引擎我们也有屏蔽,只是程度不同,只是某些关键词的屏蔽,不像对百度一样,全面屏蔽.”

所谓竞价排行,是指搜索引擎竞价广告排行.由于缺乏监管,导致搜索结果完全被金钱左右.不法商家或假冒者通过投放竞价广告,可以获得更有利的搜索排名,并因此为消费者以及守法商家带来损失.此前上海“大众搬场状告百度”的案情显示:在“百度”上输入“大众搬场”4个字,跳出来的信息不下9.8万条,其中排名靠前的多为“李鬼”,真正经过工商注册的大众搬场反被冷落,形成“劣币驱逐良币”的情况. Continue reading »

Google和百度收录网站页面的比较

网络学院没有评论 »

8 月 312008

文/月光博客

　　中国的网民出现了很奇怪的现象：大量的新网民和菜鸟新手喜欢用百度搜索，因为百度往往搜索到很多别处搜索不到的页面，但内容的匹配度则令人质疑，而专业人士和老鸟则更喜欢用Google，个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog以及社区中口碑都不太好，但在普通的低层次的网民心中却不错，这些大量的普通网民给百度带来了大量流量。那么，Google和百度收录网站页面的标准到底存在怎样的不同呢？

　　首页规则

　　搜索引擎的索引更新速度是衡量搜索质量的一个重要的参数，对于大型网站（比如门户新闻网站）以及其他更新量大的网站，百度和Google的索引速度都很快，基本上都能做到当天更新。

　　但是对于更新量小的网站，例如博客，两者就有较大区别，Google对高权重并提交Sitemaps和Ping的网站，索引速度可以达到分钟级别，有时刚刚写完一篇文章，几分钟后，就能在Google中搜索到解决，但是对于百度来说，索引速度较慢，通常仅仅更新了博客网站的首页，搜索文章标题，排在前面的是博客首页或者目录页，而不是文章页。

　　总的来说，百度对于网站首页的关注以及权重给的似乎特别高。

　　半个月规则

　　百度对于更新量较小的博客，收录页面有一个奇怪的时间规则限制：半个月规则，根据我对于月光博客文章收录速度的观察，通常情况下，半个月之内发布的文章，使用百度搜索文章标题，排在前面的基本上都是门户网站转载或聚合我的文章，我写的原始文章不见踪影。而使用Google搜索，我的原文基本上都是第一位。

　　而大约半个月之后，我的文章的原始内容才在百度上出现，这时候搜索文章的标题，我的原文才会成为百度搜索结果的第一位。 Continue reading »

Googlebot开始检索网站深层内容

网络学院没有评论 »

4 月 132008

Google 公司13日宣布，其Googlebot web信息采集系统将开始自动填写HTML表单，并记录反馈结果。Google搜索引擎似乎在不顾一切的吞食来自互联网的数据，仅去年1年它就吞下了约 100 Exabytes（1 Exabyte=1000000000 Gigabyte）的数据。之前Google并不触及大量的深层页面（也就是网站中被隐藏的内容，例如没有连接的页面，非文本的内容，或是动态内容返回的结果），但是从今天开始，Google将开始对这些页面进行检索。

据Google表示“对于文本框，我们的电脑会自动对网站上的表格进行填写，并会选择菜单，复选框，以及相应的按钮，然后索引有价值的HTML结果。”Google指出，对于动态表格所反馈的结果并不影响对网站的普通检索，排名或是其他的内容。并且Googlebot绝对会遵守robots.txt的规定不对禁止访问机器人访问的页面进行检索。

据估计，目前互联网上的深层页面要比目前公布的页面大几个数量级。而且有消息指出，Google永远也不能把互联网上的所有内容都检索到，其 Googlebot的爬行结果对于整个互联网来说只是管中窥豹。不过Google表示，对深层页面的索引只是为了找出更多动态页面之间的联系，而不仅仅是为了索引结果。