搜索研究院

 

国内外FTP搜索引擎比较

陈华 李晓明 2002.7

  编者按: 当HTML网页信息的搜索引擎发展得红红火火的时候,另一种搜索引擎也越来越受到人们的欢迎,它就是基于Web的FTP文件搜索引擎。相对WWW搜索引擎而言,尽管FTP搜索引擎为数不多,技术上也还不十分成熟,但它的用户量却在迅速上升,重要性也日渐显现出来。北京大学计算机系网络与分布式系统研究室在对国内外FTP搜索引擎进行了深入研究后,提出了下面的研究报告。

  当前在因特网上流动着诸如E-Mail、BBS、被HTTP服务器管理的HTML网页以及被FTP服务器管理的各种类型的文件等信息,其中被FTP服务器管理的文件是本文探讨的对象。

一、FTP搜索引擎简介

  FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷。

  最早的FTP搜索引擎是基于文本显示的Archie。Archie实际上是一个大型的数据库加上与这个大型数据库相关联的一套检索方法。

  WWW的出现改变了Archie在文件搜索方面的统治地位。在美观、方便的WWW页面上搜索FTP文件成为用户的自然需求,人们需要有一种基于Web的FTP搜索引擎。在功能上,基于Web的FTP搜索引擎与Archie基本一样,都是对用户提交的查询匹配串找到可以下载的FTP站点链接。基于Web的FTP搜索引擎也采用了很多WWW搜索引擎的策略,比如使用Spider自动收集数据、采用倒排索引、智能换页链接技术,以及大型FTP搜索引擎必须采用的分布收集和服务技术。

  天网FTP搜索引擎是北京大学计算机系网络与分布式系统实验室开发的一个产品,目前已经在http://bingle.pku.edu.cn上提供服务,搜集文件数据量超过1000万,日访问量超过40万次,是目前国内规模最大的FTP搜索引擎,在国际上也算FTP搜索引擎中的佼佼者。


二、著名FTP搜索引擎

  在对国内外FTP搜索引擎进行研究之后,我们列出下列比较著名的FTP搜索引擎作为本文的讨论对象:

国外著名的FTP搜索引擎

1.http://www.philes.com 号称全球最大的FTP搜索引擎。

2.http://www.alltheweb.com fastsearch.com的产品。

3.http://www.filesearching.com Chertovy Kulichki Inc.的产品。

4.http://www.souborak.com internauci.pl的产品。

5.http://www.ftpfind.com www.echo.fr的产品。

6.http://parker.vslib.cz 作者是Technical University of Liberec Czech Republic的Jiri A. Randus,是国内大多数小型FTP搜索引擎系统的原型。

国内著名的FTP搜索引擎

http://bingle.pku.edu.cn 北大天网中英文FTP搜索引擎。

Nosey Parker家族(以下讨论中我们将取清华9#作为Nosey Parker的代表):

http://166.111.136.3 清华9#搜索引擎。

http://bbs.njust.edu.cn/parker 南京理工“一网打尽”搜索引擎。

http://sesa.nju.edu.cn/cgi-bin/parker/search 南京理工“轻松搜之” 搜索引擎。

百合谷搜索 http://clilac.fmmu.edu.cn/

清华ZIXIA搜索 http://search.zixia.net/Parker

幻想FTP搜索 http://parker.5470.net.cn

西安交大思源搜索 http://search.xjtu.edu.cn


  搜索引擎的规模取决于其维护的信息量。据统计,全球匿名FTP服务提供的文件条目已经有数亿条,而中国国内的匿名FTP服务也提供了几千万条的文件量。


三、搜集文件条目数据量的比较

  由于很多搜索引擎并没有明确说明其数据库包含文件条目的信息,我们采用两个通用查询来估测搜索引擎的数据量:一个是子串查询“Winzip”,代表Windows平台常见的文件;另一个是子串查询“Linux”,代表非Windows平台文件,查询结果见表1。

  从统计信息可以看出,国外大型FTP搜索引擎数据链一般都达到千万条目以上,而国内FTP搜索引擎中,只有北大天网搜索、清华9#、华南木棉、星空搜索可能达到了这个量级,其中又以天网搜索和星空搜索文件数量最大,而华南木棉包含了HTTP和FTP两个协议的文件,因而文件数目也很大。

  判断搜索引擎是否具有“黏性”,仅看数据量是不够的,因为即使在同样的数据量下,各个搜索引擎可以实现的数据挖掘结果也各有区别。


四、FTP搜索引擎功能选项比较

  FTP搜索引擎提供的功能或选项包括:

1.支持“*”、“?”、“等”与“或”操作符;

2.支持多种查询模式,如大小写区分、子串匹配或精确查询等;

3.支持文件时间、文件大小、最后修改时间等过滤选项;

4.支持多页面显示查询结果。

  这些功能或选项是各种文件查询系统应该支持的基本功能,我们称之为FTP搜索引擎的基本功能选项。

  我们考查了许多FTP搜索引擎,列出如表2所示的区别于基本功能选项的新功能:

1.支持指定站点的站内文件查询;

2.支持结果排序,例如按时间、大小、站点等的排序;

3.查询结果中的再查询;

4.支持分类目录,例如提供许多常用的查询供用户选择。

  由表3可以看出,绝大部分FTP搜索引擎都支持“基本功能选项”,其中支持“*”、“?”操作和结果换页是最为必要的,FTP搜索引擎都应该支持这些功能。结果换页方式有两种,一种是索引式,用户可以在结果页面里任意挑选一页显示; 另一种是下一页式,用户只能一页一页地向后翻才可以看到后续的结果。大部分WWW搜索引擎都采用索引式换页。我们认为,索引式换页是更为先进、更为方便的方式。从表2可以看出,天网FTP搜索引擎支持大部分基本功能选项,结果换页采用索引方式,因而使用起来比较方便。

  FTP搜索引擎的速度十分重要,因为搜索引擎的目的就是提高用户查找信息的速度。


五、FTP搜索引擎速度比较

  搜索引擎的速度与系统底层的实现密切相关,一般而言,如果一个搜索引擎底层的查询使用通用数据库提供的查询算法,则其查询速度会慢很多,而如果采用WWW搜索引擎常用的倒排表索引归并算法,则可以达到在毫秒级完成千万文件条目的查询任务。由于我们无法得到大部分FTP搜索引擎底层究竟使用什么查询算法和系统,我们只能从外部来考查它的查询速度,也就是搜索引擎自己显示的查询时间。

  我们用以下特别查询来判断搜索引擎的速度:

1.查“*.txt”,代表正常的扩展名查询;

2.查“ab*cd”,代表*操作,是一个比较费时的查询;

3.查“winzip??.exe”,代表?操作,是一个比较费时的查询;

4.查“windows”,代表正常的子串查询。

  我们同时统计了查询的结果数目,如果系统没有提供所需查询时间,我们则仅仅统计它的查询结果。表4中表项分别是查询费时、结果数目, “>”表示超过搜索引擎的最大结果显示数。

  从表4可以看出,在提供了查询速度统计的所有FTP搜索引擎里,北大天网FTP搜索引擎达到了毫秒级的查询速度。很多搜索引擎并没有提供查询费时的统计,我们只能假设这些搜索引擎在搜索速度上都是相等的,都属于中上速度的搜索引擎。


六、国内外FTP搜索引擎总体对比

  从上面各种比较可以看出,天网FTP搜索无论在功能、速度、数据量上都名列前茅。最为重要的是,天网FTP搜索的强大查询命令解析功能使得各种输入都尽可能为用户找到查询结果,使得用户使用搜索引擎更为方便。

  但是,与Philes.com相比,天网FTP搜索的数据量太少。Philes.com是一个很成功的FTP搜索引擎,它支持各种“与”、“或”操作的查询,而且查询速度十分快,但是功能方面比较简单,只有简单查询。

  AlltheWeb.com源自于原来的FastFTP- Search,是fastsearch.com多年来的重要产品,因而无论在数据量和功能上都很强,而且由于商业开发比较早,它成为少数几个提供商业应用服务的FTP搜索引擎。但是AlltheWeb没有支持很多新兴的FTP搜索引擎功能,这是其一大缺陷。

  Filesearching.com和souborak.com都是非美国的FTP搜索引擎,其中filesearching.com以其大数据量和通用“与”、“或”操作查询赢得好评,而souborak.com则相对比较差。

  在国外的FTP搜索引擎中,ftpfind.com是功能最为领先的,它支持包括站点快照和文件分类等新兴功能,而且数据量非常大,不足之处是速度相对比较慢,仍是秒级的查询速度。

  国内的FTP搜索引擎中,星空搜索也是值得推荐的FTP搜索引擎。星空搜索以其庞大的数据量和特色功能如站点快照、站点在线状况等著称。它的不足是对查询串的解析功能不强,不能支持“与”、“或”操作,造成很多常用查询无法得到查询结果。

  Nosey Parker家族以最常见的FTP搜索引擎而著名,清华9#的FTP搜索数据量也很大。但是NoseyParker速度不快,而且不支持各种新兴功能,它的下一页换页方式不太方便。值得注意的是NoseyParker家族里面的“梦轩FTP搜索”已经对Nosey Parker进行了很大的改进,增加了许多新兴功能,使用起来很方便。

  与天网搜索同属于教育界科研项目的有华南木棉搜索引擎、网络指南针以及比较新的中科大天狼搜索引擎。

  这些搜索引擎中以华南木棉使用起来最为方便,它支持文件分类和排序,以及传统FTP搜索引擎支持的各种“与”、“或”操作符,但是它的数据量比较小,很大部分的文件信息来自于互联网网页而不是FTP,查询命中率不很高。

  网络指南针和中科大天狼都没有支持新兴功能,但网络指南针用起来比中科大天狼方便,因为天狼搜索由于不支持结果换页使得可用性大大降低。但是天狼搜索查询速度却很高,达到了毫秒级,估计使用了比较好的索引算法。


国内外ftp搜索引擎比较图

图一
图二
图三
图四

北京大学计算机科学技术系 陈华 李晓明


“我们若能更妥善地搜寻资料,实在已经改变世界。”

返回首页