Googlebot开始检索网站深层内容

网络学院来说两句

4 月 132008

Google 公司13日宣布，其Googlebot web信息采集系统将开始自动填写HTML表单，并记录反馈结果。Google搜索引擎似乎在不顾一切的吞食来自互联网的数据，仅去年1年它就吞下了约 100 Exabytes（1 Exabyte=1000000000 Gigabyte）的数据。之前Google并不触及大量的深层页面（也就是网站中被隐藏的内容，例如没有连接的页面，非文本的内容，或是动态内容返回的结果），但是从今天开始，Google将开始对这些页面进行检索。

据Google表示“对于文本框，我们的电脑会自动对网站上的表格进行填写，并会选择菜单，复选框，以及相应的按钮，然后索引有价值的HTML结果。”Google指出，对于动态表格所反馈的结果并不影响对网站的普通检索，排名或是其他的内容。并且Googlebot绝对会遵守robots.txt的规定不对禁止访问机器人访问的页面进行检索。

据估计，目前互联网上的深层页面要比目前公布的页面大几个数量级。而且有消息指出，Google永远也不能把互联网上的所有内容都检索到，其 Googlebot的爬行结果对于整个互联网来说只是管中窥豹。不过Google表示，对深层页面的索引只是为了找出更多动态页面之间的联系，而不仅仅是为了索引结果。

回复取消回复