网站建设
移动互联网
品牌设计
创新应用
新闻动态
网站百科
简体

利用www搜索引擎检索

时间:2014-07-07 来源:尚品中国 类型:网站百科
字号:   

WWW也称为Web网或万维网,是欧洲粒子物理研究所的美国科学家Tim Bemers-Lee在1989年开发并命名的一种以超文本为基础形成的信息传输网络,翻开了Internet新的一页。Tin Bemcrs-L“因此被誉为万维网之父,获得全球首个“千年技术奖”。WWW与Internet并非一个概念,而是Internet提供的服务功能之一,WWW使网络用户不再面对枯燥费解的机器指令。通过浏览器和超链接就能直观、方便地访问网络上以指数级增长的文本、图像和各种多媒体信息,除此之外,收集互联网上用户感兴趣的信息还必须借助的有力工具便是WWW搜索引擎。

搜索引擎是互联网上提供信息搜索服务的平台,是应用最广泛的网络服务工具。我们现在通常使用的搜索引攀基本上是运行于WWW中的,所以也可以称为WWW搜索引攀。随着网络信息越来越渗入普通人的生活,搜索引攀已经成为互联网上一种热门和关键的技术,研究与开发的竞赛此起彼伏,从未停止。我们之所以能轻点”数亿计的Internet网页信息,全倚仗互联网中上千个搜索引攀兢兢业业不断地进行着发现、抓取、存储、索引并提供网络信息检索服务的工作。它们正朝着专业化、本土化、生活化方向迈进。WWW搜索引擎按其运作方式差异可划分为三种类型:目录网站、全文搜索引擎和元搜索引擎。

万维网

一、目录网站

日录网站建设属早期的WWW信息搜索工具,其工作方式是由人工进行网络信息的收集、整理,以分类主题形式呈现和浏览。由于人工成本极高,技术含里比较低。从本质上讲算不上真正的搜索引攀,所以至今不受人重视,几乎全部目录网站后来都开发了自己独立的新一代的搜索引攀,演变成常见的关键词搜索形式,如新浪、搜狐、中国雅虎目前都己难觅当初目录浏览风格的踪影,仅有少数还保留着原始网站分类搜索的特征。最著名的网站目录当数Yahoo中文的网站目录从出现的时间排序有搜狐、网易、新浪等,国外有LookSmart. About等,目录网站有如下特点。

①基于树型目录浏览网络信息,简单,易用。以树型目录结构组织的信息资游,具有严密的系统性和良好的可扩充性,该月录加入了人类智稼,屏蔽了网络资深系统相对于用户的复杂性,可以提高信息的准确性,导航质量高。②资源分类目录不够细致。网络信息资派的庞杂性,决定了很难确定一个全面的范畴体系作为主题树结构的基础来涵盖所有的网络信息资源。为了保证主题的可用性和结构的清晰性,范畴体系的类目也不宜过多,这就使一方面有些特殊的类别无处可寻,另一方面大量的Web页因没有包含在目录中而被忽略。随着Web的增长,这个问题会越来越严重。利用聚类或其他自动分类(包括自然语言处理,相关顶抽取等)的方法仍然不能让人满意。并且还会出现机器自动得到的类与人工分类的结果不相同的问题。⑧由于人工介入、维护量大、信息呈相对少、信息更新不及时等,所以为使用户得到更多的信息,这种目录网站常把查询送到其他搜索引擎上,对整个Web进行搜索。当今的目录网站与全文搜索引擎是相互融合的,用户基本不能区分。如Yahoo曾经采用Google的搜索引攀提供页面搜索,Google则采用“OpenDirectory”目录提供分类查询,搜索界面也几乎是千篇一律。

二、全文搜索引攀

全文搜索引擎被称为真正的搜索引擎,与网站目录的区别在于它不再使用人工参与的信息搜索与分类,全部采用软件程序来搜集、索引、检索网络信息,全文搜索引攀的结构由四部分组成。

 (I)搜索器。搜索器或称网络机器人。是一种网络自动搜索软件,通常称为“蜘蛛”(spider)、爬虫(crawler)或机器人(robots)等。“蜘蛛”唯一的工作就是在Web中漫游发现和收集信息,它每天可以“爬行”大约一千万个网页,尽可能多快地收集各种类型的新信息。同时因为Web的信息更新很快,所以还要定期更新已经收集过的旧信息,以免死链接和无效链接。收集信息的策略有两个。第一,从一组URL (资源定位器)开始,顺粉这些URL中的超链接,以宽度优先或深度优先方式递归地在Web中抽取信息。这些起始URL常常是一些非常流行的、包含很多链接的站点,例如Yahoo的分类节点;第二,可以通过设置“添加网址”栏,允许网络信息作者主动给搜索引擎提供网页地址,但这种方法常受到垃圾网页制造的轰击,几乎有95%通过添加网址栏提交的网址被拒收。搜索引攀采用的搜索信息策略不同,如搜索频率、搜索对象等会造成每个搜索引擎的搜索结果、质量之间存在差异。

(2)索引器。 索引器或称为标引程序。它的功能是分析收集器所收集的信息,进行自动标引,将文档表示为一种便于检索的形式并储存在索引库中,也就是建立倒排文档。倒排文档中的每个标引项都包含一组指针,指向它