搜索研究院

 

搜索引擎面面观”及17点修改建议

搜索引擎9238 2000.12

说明:黄果作品“搜索引擎面面观”因为某些原因,在写了很久之后才发表,而搜索引擎的变化太快,所以后来发表之后,已经有很多地方不合适。我当时并不知道这篇文章的写作日期,所以有了这块砖。

“搜索引擎面面观”的17点修改建议

1:“像Yahoo!就使用了Inktomi的技术而自己并不开发搜索引擎,”,yahoo使用的是google,你下面不是专门写的吗?为何开头这么写?

2:“搜索引擎指的是对整个互联网成亿个的网页进行检索,”,互联网的网页现在不是成亿个,已到超过十亿级。

3:“Altavista“而且其搜索的数据量也是相当庞大的,”,排数据量现在已轮不到altavista了,最多的是fast和google,就算要求低一点还有northernlight和inktomi等排在它前面。

4:“有不少国内搜索引擎找不到网页都可以通过它找到。”,这是公关用语,不适合用在中立报告中,每个搜索引擎都能找到不少别的搜索引擎找不到的网页。

5:Infoseek“同时检索结果的相关程度也很高。产品一推出在搜索引擎领域与华尔街都引起了很大的震动,Infoseek刚上市时是YAHOO市值的60%~70%,大大领先于另外几家搜索引擎,”,这些资料没写明时间,很容易使误导别人以为infoseek现在是很牛的搜索引擎。

6:Excite“所以一开始提出的概念搜索(Concept Search),即用同义词推断来增加搜索的结果很快就宣告失败。”不知是哪里的资料谁说的它很快就失败?概念搜索是很棒的技术,只要会用,可以做到别的搜索引擎都做不到的事。

7:“后来Excite与@home 合并,开始主攻宽带市场,也就没有更新的技术出现。”这没说明时间,容易使人以为excite早就玩完了。就在合并以后,今年上半年还推出过新的搜索引擎。

8:Lycos “在很长的一段时间里同时维持着两个搜索平台,但在今年年初他们全面改用了Inktomi的搜索引擎。”,Lycos现在用的是fastsearch的搜索引擎,不是inktomi。很快就要用goto了。

9:“第一代的搜索引擎公司都变成了门户网站”,altavista已经不做门户,专心做搜索引擎了。

10:askjeeves “从结构上说它比较简单,因为提问后并不是立即返回问题的答案,而是用逼近式的方法让你选择他知道的所有问题,再由用户分类来选择答案。这一点从技术上讲非常容易解决,”,天哪,非常容易解决?是听谁说的?你去用用尤里卡、悠游800、世纪讯联再用用askjeeves比较看看。

11:“askjeeves“但由于其规则库太小,真正使用的人不是很多。“,它的标准问题答案库现在是700万条。我不知道700万太小,怎么样才算大?askjeeves在全球的所有网站的独立用户数量排名通常在十几位,如果十几位还算真正使用的人不是很多,那全球数以千计的搜索引擎真是很可怜。

12:GOTO“搜索得到的结果相关性程度较高,“,goto整天卖排名,受欢迎是真的,相关性较高吗,大概是没多大缘份了。

13:Google“目前,Google.com的用户已经可以使用包括中文、法语、德语、意大利语和西班牙语在内的14种语言进行搜索。”太老了,上回我刚给信海光提出过。google的正式语言现在已经是25种,测试语言一种。而且,就算没测试的语言,其实也有可能用的,他的中文测试版是今年7月初发布,正式版9月初发布,但今年3月份我已经在用它搜索中文了。

14:“目前国内搜索引擎能够检索2000万个网页,而国外能做到上亿个,”,百度刚升级的搜索引擎已号称提供检索300万中文网页。Google目前的网页检索数量已超过13亿。

15:百度“4、支持动态网页的检索,而一些搜索引擎负责搜索网页的Spider不检索动态网页,因为怕被变化无穷的动态系统黑洞吸进去后出不来了。”这是它的公关语言,不适合用在报告里。虽然它是能支持,但它这样1234的连续写容易使人误以为百度在internet网页全文搜索上已用上了动态网页搜索。有支持动态检索本事的多的是 ,但是现在没有,可能以后有一段时间不会有对网络上所有动态数据库象网页全文检索一样提供全文搜索。只针对指定网站或指定内容进行动态搜索和针对全internet搜索是天差地别的两回事。

16:悠游“与Askjeeves一样,悠游也采用了智能的技术,但Askjeeves属于规则式技术(Ruler Technology)的派系,工程师必须花很多时间在问句规则设计上,针对数据库本身的特性在问句上要花很多时间去整理,如果你问的问题并不是它所设下的问句规则就找不到答案。规则式的技术是从翻译学演变出来的,即同义词的结构与语法反映的是同一事情,而悠游所采用的是概念化的网络环境(Conception Network),在人工智能方面更为先进,
  这也是公关语言,目的是让人以为悠游比Askjeeves厉害,用在报告中是不合适的。Conception Network也许是比Ruler Technology先进,但英文和中文不同,英文的问句格式固定,多是已W和H类疑问词开头,语法也较标准,所以采用规则式技术很合适。而中文的问句和语法结构千变万化,远不象英文那么标准,所以不适合用规则式技术的。另外,用先进的技术不一定就是产品先进,道理就象一个降龙十八掌的低手打不过一个少林拳高手一样。

17:“世纪永联搜索引擎For Search“,写得这么好,如果不是有特别原因,我认为作者根本没仔细用过世纪永联的搜索引擎。

 

附:搜索引擎面面观
黄果

  使用搜索引擎是网民上网最重要的一件事。根据CNNIC的统计,搜索是互联网上仅次于电子邮件的应用,因此这篇文章对各个搜索引擎进行客观地介绍,希望能够给网民搜索带来方便。需要澄清的是,网站目录并不是搜索引擎,搜索引擎指的是对整个互联网成亿个的网页进行检索,此搜索服务系统是基于网页的全文检索系统。而网站目录通常是人工分类的有系统的网站列表,通常附有搜索功能,从这个意义上说网站目录更像Internet上的黄页。现在的大型网站通常是购买别的厂商的搜索引擎技术,像Yahoo!就使用了Inktomi的技术而自己并不开发搜索引擎,杨志远在创业的时候所搜集的网址就是网站目录。

  搜索引擎是全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM最高可达70美元。所以搜索引擎一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。这也是为什么大型网站特别是门户网站将其列为“兵家必争之地”的原因。
第一代搜索引擎

  一、Altavista(www.altavista.com)

  Altavista是搜索引擎的元老,诞生于DEC研发中心。它也是Yahoo!最早的搜索引擎技术的提供者。Altavista的特点是速度快,这一点国内用户可能感觉不到,这是因为其服务器位于国外。DEC当时想法是希望通过搜索引擎告诉大家Alpha芯片的威力,因此服务器使用的是Alpha的芯片,它能够提供极快的响应速度,而且其搜索的数据量也是相当庞大的,但其缺点在于服务器价格昂贵。

  Altavista还可以提供许多不同格式内容,像音频、视频与多国语言的检索,有不少国内搜索引擎找不到网页都可以通过它找到。但Altavista在更新频率上不是很快,其中文搜索的技术已经有两三年没有改进过,检索内容更新频率大约是一个月一次。音频、视频与图像占用空间很大,要做好这方面的服务,需要占用相当大的存储空间,而Altavista在这方面做得相当不错,可以说处于世界领先的地位。

  二、Infoseek(www.infoseek.com)

  Infoseek不是以数据库大而见长的,而是以检索的相关程度高而知名。Infoseek购买了马萨诸塞大学的搜索软件产品,而马萨诸塞大学的信息检索是全美高校数一数二的,所以Infoseek一开始的起点就很高。但他们很快就发现,互联网数据量太大了,当初设计的规模太小,只好重新编写程序。于是Infoseek请了一位华人工程师William Chang设计了第一代Infoseek搜索引擎Ultraseek,其特点也是速度快,同时检索结果的相关程度也很高。产品一推出在搜索引擎领域与华尔街都引起了很大的震动,Infoseek刚上市时是YAHOO市值的60%~70%,大大领先于另外几家搜索引擎,而其后台的领先的搜索引擎技术功不可没。1999年,Infoseek被Disney所购买,发展方向与定位都做了调整。Disney将其做为入门网站Go.com的搜索引擎,在技术上的革新比较少,处于维持现状的水平,主要是做娱乐方面的索引。

  三、Excite(www.excite.com)

  Excite是斯坦福大学的六位计算机系的本科生创办的。“免费让人搜索,用广告收入来补贴',这是Excite率先提出来的,也是当时比较新的概念。Excite搜索技术研发人员的计算机功底扎实,但对信息检索的认识不是很深,所以一开始提出的概念搜索(Concept Search),即用同义词推断来增加搜索的结果很快就宣告失败。因为互联网的信息不是太少了而是太多了,搜索的目的是在茫茫的信息海洋中找到所需要的精确的信息。后来Excite与@home 合并,开始主攻宽带市场,也就没有更新的技术出现。

  四、Lycos(www.lycos.com)

  lycos是早期搜索引擎中唯一诞生于美国东部的,其余的搜索引擎则都在硅谷。它脱胎于卡耐基·梅隆大学的一位博士生的一套互联网搜索程序,此后被风险投资集团CMGI看中,并且在波士顿成立了公司。其搜索技术一直比较落后,但在商业上比较成功,Lycos很早就投资做社区网站,网络广告也卖得不错,在商业操作上的成功掩饰了其技术的落后。Lycos后来购买了一家广受好评的搜索网站Hotbot,但实际Hotbot在后台用的也是Inktomi的技术。所以Lycos在很长的一段时间里同时维持着两个搜索平台,但在今年年初他们全面改用了Inktomi的搜索引擎。
第二代搜索引擎

 

 

  从1995年Web商业化开始,搜索技术的地位就一直很重要。最早的几个互联网商业公司就是靠搜索技术起家的,但搜索技术本身的革新一直就没有停止过,而且在商业模式上也不断地推陈出新。

(上接第D29版)第一代的搜索引擎公司都变成了门户网站,而第二代的搜索引擎厂商则是像Inktomi、Google这样给网站提供技术与服务的ASP或是在技术上采用了人工智能技术的厂商,像Askjeeves,Direct hit等。他们在商业模式上也在不断创新,像Goto.com允许网站的拥有者实时进行检索结果的排序,客户可以花钱购买排序的位置,通过拍卖的形式将相关网站放在前面,但同时明确标出这个搜索结果的是付费的。此外,垂直化的搜索引擎也应运而生,像专门做图形图像或MP3文件的搜索引擎。而最新的技术是动态的网页搜索和实时内容的检索,网络上越来越多的网页是根据程序生成的,而不是静态地存在。这些页面都是根据时间变化而变化的,比如查询股票的价格等。而实时的内容多是新闻与金融信息,这也是广大网民迫切需要的。

  第二代搜索引擎厂商的特点是只做后台技术的提供者,这是美国互联网发展的教训。因为网络最初发展时最迫切需要的是搜索,于是同时出现了许多搜索引擎,但是后来各厂商认识到作为独立公司单独开发搜索引擎不能维持长期发展,于是又都发展成门户,提供了许多别的内容,但他们很快发现搜索不像新闻一样没有什么技术含量。而作为一个公司,则要同时肩负两个任务,一是创建门户类的平台,这是打市场、创品牌的过程,二是开发搜索引擎,而这则是扎扎实实的技术工作,这两方面没有什么共同点。既做搜索引擎又做门户使得网站精力分散,不能全力投入搜索引擎技术的改进,而且两者合一意味着自己的产品不能卖给别人,因为当时搜索引擎的用户大多是做门户的,全是自己的竞争对手。搜索引擎的开发的成本又相当高,而制作的东西又只能少数几家使用,这就不符合软件通用化的潮流与模式。第一代网站中,只有Yahoo!不自己开发搜索引擎,所以它成功了。

  一、Inktomi(www.inktomi.com)

  Inktomi是伯克利大学Eric Brewer的教授最先开始研究的,这位教授是并行处理研究的专家。Eric Brewer希望用这个搜索引擎产品来证明他的并行算法是十分出色的,后来他将自己的技术卖给了HOTBOT,作为后台技术的提供商。

  Eric Brewer完成Inktomi的时候,这个市场竞争已经相当激烈,再想做门户已经不可能了。所以他决定只做背后技术的提供商,而这却正中Yahoo!的下怀,Yahoo!以前使用的是Altavista的技术,但Altavista本身也是门户,与Yahoo!处于竞争关系,而Inktomi与Yahoo!没有利益冲突关系,便很快成了其后台技术的提供商。

  二、Askjeeves(www.ask.com)

  从技术上讲,Askjeeves是一个比较简单的系统,但从创意来说是相当出色的,它维护了问题与答案相联系的数据库。从结构上说它比较简单,因为提问后并不是立即返回问题的答案,而是用逼近式的方法让你选择他知道的所有问题,再由用户分类来选择答案。这一点从技术上讲非常容易解决,但从实践来说需要大量的人力来干预,即问题与结果的数据库规则基本是靠人工来建立的。但由于它建立了一套可以让人以自然语言提问的系统,很多网民喜欢这样的形式。但由于其规则库太小,真正使用的人不是很多。

  三、Goto(www.goto.com)

  从本身技术来说,Goto.com使用了超链分析与根据用户的点击行为来分析与重排序,搜索得到的结果相关性程度较高,而且比较符合用户的点击习惯。

  四、Google(www.google.com)

  Google由Larry Page和Sergey Brin设计, 于1998年9月发布测试版,一年后正式开始商业运营。Google由于对搜索引擎技术的创新而获奖无数,如美国《时代》杂志评选的“1999年度十大网络技术'之一、《个人电脑》杂志授予的“最佳技术奖'、The Net授予的“最佳搜索引擎奖'等。Google现为全球80多家门户和终点网站提供支持,客户遍及20多个国家。

  在国内,大家对于这家搜索引擎技术提供商还比较陌生,但今年年初,Yahoo!宣布将不再采用Inktomi的搜索服务,而转而将Google作为其搜索引擎技术提供商,此举使Google 声名大噪。 Google所擅长的是易用性和高相关性。Google提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google还提供一项很有用的服务——“网页快照”功能,即当搜索内容站点或网页不存在时,用户可以调 用Google事先为用户储存的大量应急网页,经Google处理后,搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。实际上GOOGLE将检索的网页都做了一番“快照”然后放在自己的服务器上,这样做的好处是不仅下载速度极快,而且可以获得互联网上已经删除的网页。

  目前Google已与网易公司(163.com)达成协议,自9月15日起,网易采用Google的技术向用户提供新一代的中文搜索引擎,Google的中文搜索引擎是收集亚洲网站最多的搜索引擎之一,这也是Google拓展全球信息市场的重要基础。根据双方协议,网易的用户不仅能够通过Google访问2400万个中文页面,还可以访问其全部目录中超过10亿的Web文件。目前,Google.com的用户已经可以使用包括中文、法语、德语、意大利语和西班牙语在内的14种语言进行搜索。Google公司正在雄心勃勃地筹备更丰富的服务内容,如日语、朝鲜语和其他客户化定制的搜索引擎服务。

国内搜索引擎

 


  中文的语言文化对国外搜索引擎产品是一个天然的屏障,这使得国外的产品不能简单汉化就拿给国内的ICP使用,这一点与翻译软件非常类似,因此国内厂商在这个领域的机会是很大的。

  但国内的搜索引擎技术与国外相比依然差距较大,从技术角度说搜索引擎基本由三部分组成,第一部分是蜘蛛软件(Spider),即自动的收集程序,它的作用是负责收集网页的内容;第二部分是索引器(Indexer),其作用是将收集回来的内容进行分析,然后做一个索引;第三部分是搜索器(Searcher),即响应用户的检索请示,用户输入关键字后,搜索器要用这个检索词与建立的索引器匹配,匹配后做相关性排序,再将排序结果送给用户。目前国内搜索引擎能够检索2000万个网页,而国外能做到上亿个,其差距主要是在蜘蛛软件与搜索器上,因为能够研发大容量与大访问量的系统与软件的人才是相当稀少的。国内有些中文网站的网页搜索服务外包给一些服务器在境外的ASP,这也是查询速度缓慢的原因之一。

  搜索引擎服务在国内大有市场,高盛公司的资料表明,到2001年中文互联网的网络广告收入将达到3.5亿美元,而从美国的经验来看,在网络发展的早期,搜索可以占到50%以上的广告收入。

  一、百度(www.baidu.com)

  百度是海外留学的学子们回国创办的,总裁李彦宏就是Infoseek第二代搜索引擎的开发者,他发明的超链技术现在在搜索引擎技术开发中广泛地被使用。

  百度搜索引擎已经被多家网站使用,包括三大门户中的新浪与搜狐,此外还有人气极旺的ChinaRen、南方的21Cn与广州视窗等。百度搜索引擎的特点是,1、智能化的中文语言处理技术大大提高了搜索的准确性与查全率;2、可扩展的搜索技术保证最快最多地收集网络信息,构建大规模索引库。李彦宏夸下海口:“把全中国所有有关网页检索的请求全放到百度的搜索引擎上都是没有问题的';3、高效的搜索算法和本地服务器保证最快的响应速度,一个检索的平均响应时间小于0.18秒;4、支持动态网页的检索,而一些搜索引擎负责搜索网页的Spider不检索动态网页,因为怕被变化无穷的动态系统黑洞吸进去后出不来了。然而,随着应用CGI、PHP等的网站日益增多,网站使用动态网页生成工具是大趋势。

  二、悠游(www.goyoyo.com)

  悠游是国内比较早就进行搜索引擎开发的厂商,它除了具备一般搜索引擎的优点外,还融入了计算机人工智能技术,可自动对请示做分词及断句的处理,更可以关键词的方式进行对网页内容的理解与存储,因而在很大程度上降低了系统的开销,并进一步提高了“人机对话'的互动能力。与Askjeeves一样,悠游也采用了智能的技术,但Askjeeves属于规则式技术(Ruler Technology)的派系,工程师必须花很多时间在问句规则设计上,针对数据库本身的特性在问句上要花很多时间去整理,如果你问的问题并不是它所设下的问句规则就找不到答案。规则式的技术是从翻译学演变出来的,即同义词的结构与语法反映的是同一事情,而悠游所采用的是概念化的网络环境(Conception Network),在人工智能方面更为先进,还可以随时经由自学式的过程来自我改进。

  悠游搜索引擎产品的国际化工作做得不错,国外许多知名ICP的中文站点都采用了悠游的后台技术,如:美国在线选择悠游中文搜索引擎为美国在线香港站唯一选定的搜索引擎。悠游中文搜索引擎还是网景Netscape中文版的首选。

  值得注意的是悠游的搜索引擎能够实现智能化的问答,人机交互方面做得比较好,因此悠游以搜索引擎为核心技术研发的产品——悠游800,成为各大企业的在线售后服务提供商,可以使客户以自然提问的方式对企业的数据库进行检索,最后给出答案,节省了大量人力。现有的合作方有:商务通、海尔、丰田、摩托罗拉、联邦软件、育碧软件、海信、创通、恩威制药、地奥制药、长虹等等。

  三、世纪永联(www.softhouse. com.cn)

  世纪永联搜索引擎ForSearch是世纪永联ForInternet系列应用软件中的一个。世纪永联ForSearch的特点是提高搜索的精确度,它采用通过建立目录式数据库增强搜索的精确度。数据库类别划分越细,检索也就越快,相关度也就越好,通过不同词条进行分类,可以大大提高信息与检索词的相关度。

  世纪永联搜索引擎建立数据库人工分类支持,以在较短时间内找出合理结果为宗旨。其中包括提供友好的人机界面,考虑了地域、性别、年龄等方面的差别,形成个性化服务,并在其目录式数据库的建立过程中,加入了人工设计和人工维护,从而使得数据库中的中文信息资料存放的方式更为符合中国人的检索习惯。此外,由于其索引系统可以支持字、词索引,实现以自然语言处理技术为内容的分词技术,使信息查询的准确性和查全率都得到了提高。

  四、Webcate(www.webcate.net)

  Webcate是网景时代的产品,它与普通的搜索引擎不同的是它是专业垂直型的,有些像美国的比较购物搜索Mysimon,它可以搜索出某个产品在哪个网站上的价钱是最低的。Webcate的站点内容提取技术可以直接深入到站点及其网页的所有内容,将网页中的有效数据提取出来,并保持数据之间的逻辑关系。例如,对一个做在线零售的站点,Webcate可以将其所有正在出售商品的分类、名称、价格、商品介绍及付款方式全部提取出来,即使商品的详细介绍和商品的价格不在同一个页面,Webcate系统也能正确地对应每个商品和它的详细介绍。


“我们若能更妥善地搜寻资料,实在已经改变世界。”

返回首页