11月 022007
 

   最近因为工作需要,在网上寻找数据采集软件,刚开始下载了好几种采集软件,发现不是功能有限制,就是功能不足满足不了我的需要(因为我想要采集的网站结构比较复杂,具体是什么网站保密~),偶然发现了一个以前没见过的TOPFISHER数据采集软件,看到网站的介绍,说是能够精确的采集到数字及日期类型的数据,也没有什么功能限制,而这正是我想要的啊,于是就下载下来试试看。

   下载下来一看郁闷了一下,TOPFISHER这个软件是用编写脚本代码的方式来分析网站架构的,不像其它的软件都是配置一大堆对话框的那种。不管怎么样,先找一些例子程序运行一下试试看吧,我试运行了三个例子:第一个是采集百度搜索结果数据,结果真的是可以采集,这个虽然比较强,但用处不大。第二个是采集和下载一个手机待机图片的网站数据,这个确实很不错,不但把图片都下载到了一个指定的目录中,而且还把图片相关的数据直接放到了一个MDB文件中。第三个是下接采集某站的手机号码归属地的数据,这个相信对多数站长都是非常有用的(包括我自己),这个也不错,也是直接把结果放到了一个MDB文件中,而且目标网站是以POST方式来传递参数的,TOPFISHER也可以轻松拿下。 Continue reading »

7月 292007
 

    维基百科创始人吉米·威尔斯今年有一个宏大的计划,就是开发开源、开放的搜索引擎维基搜索,这一项目被誉为今年国际互联网的两个黑马产品之一.周五,威尔斯透露了这一项目的一些进展.

    据称,他已经收购了一家拥有抓取技术的公司,另外,维基搜索将依靠成千上万的用户电脑来分布式地抓取网页,而不是构建自己的“蜘蛛”服务器群.

    威尔斯表示,他正在把若干个技术模块组建成完整的维基搜索,预计到今年年底,维基搜索将会提供一个公开测试版,这一依靠人工编辑优化网页搜索结果的全新搜索引擎将对Google公司和雅虎公司发起挑战. Continue reading »