当前位置：搜档网 › 基于Lucene的Nutch垂直搜索引擎系统的设计与实现31

基于Lucene的Nutch垂直搜索引擎系统的设计与实现31

学校代码： 10289

分类号：

密级：

学号：（宋体小四）

江苏科技大学硕士学位论文（工程硕士）基于Lucene 的Nutch 垂直搜索引擎系统的设计与实现研究生姓名欧阳丽娜导师姓名苏勇申请学位类别工程硕士学位授予单位江苏科技大学学科专业计算机论文提交日期 20 年月日研究方向论文答辩日期 20 年 6 月 12 日答辩委员会主席评阅人 20 年月日

论文题目

基于Lucene 的

Nutch

垂

直搜索

引擎

系统的

设计与实

现

姓

名欧

阳丽娜

江苏

科技大

学

分类号：

密级：

学号：

工学硕士学位论文

（工程硕士）

基于Lucene的Nutch垂直搜索引擎系统的设计与实现

学生姓名欧阳丽娜

指导教师苏勇

A Thesis Submitted in Fulfillment of the Requirements

for the Degree of Master of Engineering Research and Development of the Platform to Aggregate V ocational Education Resources Based on https://www.sodocs.net/doc/9c7817982.html,

Submitted by

OuYangLiNa

Supervised by

Professor

Jiangsu University of Science and Technology

June，2014

摘要

现代互联网技术的更新换代以及人类对信息技术坚持不懈地追求，促使世界上每个国家都在进行史无前例的科技革命。一个国家的发展需要信息技术，一个公司的发展需要信息技术，生活中的每个人也同样需要不断变革与发展的信息技术。同时互联网上的各种信息每天都在迅速增长着，互联网已经成为人们信息最重要的来源。

信息技术的不断发展必然带来信息技术的爆炸性增长。如此海量的信息资源聚集必然导致用户获取有效信息的难度增加以及用户不需要的垃圾信息量的增加。就这样，能够快速准确地获取有用信息的工具即搜索引擎就这样诞生了。

然而，随着互联网信息多元化的进一步发展，传统的搜索引擎系统爬虫需要爬取、索引和进行查询的网页内容急剧增加，因此，通常会出现这样的一种情况，我们用户不得不在海量的无关信息中困难地寻找自己所需要的信息。目前，对搜索引擎系统的主要关注点转向应该怎样快速、准确地让用户能够找到对自己有用的信息。人们对得到的专业领域相关信息资源的实时性、针对性和准确性等方面有了更加严格的要求。鉴于此，垂直搜索引擎就这样诞生了。

垂直搜索引擎系统是一种面向特定专业、特定领域的分类比较细致、精确、更新比较及时的搜索引擎。随着互联网上信息的爆炸式增长以及信息多元化的快速发展，垂直搜索引擎系统正成为研究热点和发展趋势。

本文对面向手机数码领域的垂直搜索引擎系统的关键技术进行了研究，并提出了一种基于Lucene的面向手机数码领域的垂直搜索引擎系统的解决方案，研究、设计并实现了面向手机数码领域的垂直搜索引擎系统。

本文的主要写作过程如下：

首先，介绍搜索引擎的历史发展情况和研究的背景，同时阐述了本文的研究内容和各个章节的安排。

然后介绍搜索引擎的关键技术，同时分析了搜索引擎和垂直搜索引擎的工作原理以及各自的差异，并详细说明垂直搜索引擎研究中需要用到的关键技术，重点对网络爬虫的信息爬取技术和用户检索结果的排序技术进行了研究与分析。

接着介绍开源搜索引擎Nutch和全文检索工具包Lucene的基本概念、工作原理，同时针对全文检索工具包Lucene的检索结果排序算法的不足之处，提出了一种改进

的检索结果排序算法。

其次根据相关的功能需求，对基于Lucene的面向手机数码领域的垂直搜索引擎系统的各个功能模块进行详细的分析与设计。同时利用垂直搜索引擎系统的开发环境Linux和开发工具Cygwin、Tomcat、Ant、Luke，同时使用Java语言编程实现系统中的相关算法和模块的具体功能。详细介绍了基于Lucene的Nutch垂直搜索引擎系统的具体实现过程。并对系统运行情况和结果进行了相关的展示。

最后，对论文的各项工作进行了总结，并指出了今后发展方向和下一步的研究工作，以便后续不断更新和完善。

关键词：Lucene ；Nutch ；垂直搜索引擎；爬虫

Abstract

Modern Internet technology upgrading of information technology and human perseverance in pursuit , prompting every country in the world are conducting an unprecedented technological revolution . A country's development needs of information technology , a company's development needs of information technology, the life of every people also need to constantly change and development of information technology . Meanwhile all kinds of information on the Internet are growing rapidly every day , the Internet has become the most important source of information .

Continuous development of information technology will inevitably bring the explosive growth of information technology. So gather vast amounts of information resources will inevitably lead to the difficulty of users to access useful information and an increase in the amount of information users to unwanted junk . Thus , it is possible to obtain useful information quickly and accurately search engine tool that was born .

However, with the further development of a wide range of information on the Internet , traditional search engine crawlers require crawling , indexing and query a sharp increase in web content , so often there will be such a situation , we have to mass -independent user information difficult to find the information they need . Currently, the main focus should turn to search engines what the system quickly and accurately so that users can find useful information on their own . People timeliness , relevance and accuracy of the other aspects of professional fields related to information resources have more stringent requirements . In view of this , the vertical search engine was born .

System is a vertical search engine for specific professional categories in specific areas more detailed, accurate , and timely updates comparison search engine . With the explosive growth of information on the Internet and the rapid development of a wide range of information , the vertical search engine is becoming a hot research and development trends .

In this paper, the key areas for mobile digital technology vertical search engine system is studied and proposed a vertical search engine for mobile phones based on Lucene field of digital solutions , research, design and implement the digital field for mobile phones vertical search engine system .

The main process of writing the paper is as follows :

Firstly, it introduces the history and background of the development of the study of search engines, and sets out the content and the various chapters of this paper .

Then introduces the key technologies of search engines, while analyzing the working principle of search engines and vertical search engines as well as their differences , and details key technology vertical search engines need to use research , focusing on the

network crawling reptiles of information technology and user search results sorting techniques were studied and analyzed.

Then introduced Nutch open source search engine and full-text retrieval toolkit Lucene 's basic concept , principle, while the package Lucene search results ranking algorithm inadequate for full-text search tool , an improved search results ranking algorithm .

Secondly, according to the relevant functional requirements for various functional modules for mobile phones based on Lucene field of digital vertical search engine for detailed system analysis and design . While taking advantage of vertical search engine system development environment for Linux and development tools Cygwin, Tomcat, Ant, Luke, while using the Java programming language to achieve specific functions of the system of algorithms and modules. Details of the implementation process based on Lucene Nutch vertical search engine system. The operation of the system and the results were related to the show.

Finally, the paper summarizes the work and points out the future direction of development and further research work in order to follow constantly updated and improved.

Keywords：Lucene ；Nutch ；Vertical Search Engine；Crawler

摘要.............................................................................................................................................................. II ABSTRACT ................................................................................................................................................... IV 第一章前言. (1)

1.1课题的研究背景 (1)

1.2研究意义和研究现状 (2)

1.3本文的研究内容 (4)

1.4本文的组织结构 (5)

第二章搜索引擎的关键技术 (6)

2.1搜索引擎的基本架构 (6)

2.2垂直搜索引擎 (8)

2.2.1 垂直搜索引擎定义 (8)

2.2.2 垂直搜索引擎特点 (8)

2.2.3 垂直搜索引擎优势 (9)

2.3网络爬虫 (9)

2.4主题网络爬虫技术研究 (10)

2.4.1 主题网络爬虫工作原理及关键技术概述 (10)

2.4.2 主题网络爬虫结构模型 (11)

2.5中文分词 (12)

2.5.1基于字符串匹配的分词方法 (14)

2.5.2基于统计的分词方法 (15)

2.5.3基于理解的分词方法 (15)

2.6网页相关性排序 (15)

2.6.1 向量空间模型（VSM） (15)

2.6.2 搜索引擎的网页结果排序 (17)

第三章开源搜索引擎NUTCH (19)

3.1搜索引擎工具包L UCENE (19)

3.1.1 Lucene简介 (19)

3.1.2 Lucene与Nutch的关系 (19)

3.1.3 Lucene的结构 (20)

3.1.4 Lucene的使用 (21)

3.1.5 Lucene的评分公式............................................................... 错误！未定义书签。

3.1.6 Lucene的搜索结果排序 ....................................................... 错误！未定义书签。

3.2L UCENE的搜索结果排序算法的改进 (27)

3.3N UTCH的介绍 (27)

3.4小结 (30)

第四章基于LUCENE的NUTCH垂直搜索引擎系统总体设计 (31)

4.1系统体系结构 (31)

4.1.1信息抓取部分 (32)

4.1.2信息预处理部分 (32)

4.1.3查询服务部分 (33)

4.2系统用例模型 (34)

4.2.1角色的确定 (34)

4.2.2创建用例 (34)

4.3系统动态模型 (36)

4.4系统整体工作说明 (39)

4.4.1系统整体工作图解 (39)

4.4.2系统总体工作流程描述 (39)

4.5主题过滤说明 (40)

4.5.1主题过滤的研究现状 (40)

4.5.2主题过滤的评估简介 (41)

4.5.3摘要分析 (42)

第五章基于LUCENE的NUTCH垂直搜索引擎系统详细设计与实现 (43)

5.1开发环境介绍 (43)

5.2N UTCH主题网络爬虫模块的设计与实现 (43)

5.2.1 Nutch采集策略 (43)

5.2.2 Nutch数据采集实现 (44)

5.3分词模块的设计与实现 (46)

5.4查询模块的设计与实现 (46)

5.5N UTCH垂直搜索引擎的详细配置与实现过程 (47)

5.5.1 第一部分网页内容的下载 (47)

5.5.2 第二部分网页内容的搜索 (55)

第六章结论与展望 (61)

参考文献 (63)

致谢 (65)

第一章前言

1.1 课题的研究背景

搜索引擎是信息检索领域的工具，所以我们对搜索引擎的研究就属于信息检索领域的一个分支。表1-1列举了搜索引擎诞生以及发展的一些历史。

然而，随着互联网信息多元化的进一步发展，传统的搜索引擎系统爬虫需要爬取、索引和进行查询的网页内容急剧增加，因此，通常会出现这样的一种情况，我们用户

不得不在海量的无关信息中困难地寻找自己所需要的信息。目前，对搜索引擎系统的主要关注点转向应该怎样快速、准确地让用户能够找到对自己有用的信息。人们对得到的专业领域相关信息资源的实时性、针对性和准确性等方面有了更加严格的要求。鉴于此，垂直搜索引擎就这样诞生了。

1.2 研究意义和研究现状

搜索引擎极大的方便了用户在互联网上搜索自己需要的信息资源。但是，随着科学技术的进一步发展以及用户日益显著的个性化需求，传统意义上的通用搜索引擎系统已经很难满足专业领域用户的快速、及时响应的查询需求。并且，通用的搜索引擎系统也很难及时地更新互联网上的信息。

面对以上通用搜索引擎系统出现的这个问题，我们就需要设计出一种垂直搜索引擎系统，它专注于专门的领域，同时对该领域的信息全面深入挖掘，并且系统的更新要比较及时。这种面向专门领域进行搜索的垂直搜索技术在最近几年中已经变得相当的热门。

开源搜索引擎的研究具有非常重大的意义。首先，现实生活中只有很少的一部分人能够了解、接触和研究到真正的搜索引擎，绝大部分的人都不懂得专业的搜索引擎技术，也根本无法了解到这方面的技术和知识，因此这个时候，开源的搜索引擎系统就成为人们在学习和研究搜索引擎系统技术时一个相当不错的学习途径和方法。同时，开源搜索引擎系统能够吸引更多有能力、有本事的人贡献出自己的才能，这肯定会推动搜索引擎技术的进一步发展。

开源搜索引擎就是在这样一种急切的需求中诞生出来的，同时经过很多人的努力与贡献，已经在搜索引擎领域取得了巨大的进步，收获丰硕。然而在开源搜索引擎这个领域中最出名、功能最强大的就是Dog Cutting发明的Nutch家族，它是以Lucene 全文索引工具包为基础进行索引和搜索的Web搜索引擎框架。通过对Nutch进行配置，就可以实现许多非常强大的功能，此外它使用Java语言进行开发，所以具有跨平台应用的优点，作为网络爬虫和lucene索引器的结合，功能上来说极其强悍，每个月数以亿计的网页爬取量，网页搜索的高速，开源的功能剖析都是我们选择研究它的关键因素。此外基于 Lucene全文索引工具包的索引和检索功能、基于底层云计算平台Hadoop的分布式编程模型和基于云存储的分布式文件系统，都能够让我们用户

可以快速高效地把海量网页数据在数百台乃至数千数万台计算机上运行起来，并且能够在短时间内完成海量数据的计算与分析。总的来讲，研究开源的搜索引擎是很有实际应用意义和价值的。

国内的研究者们对搜索引擎系统的研究起步比较晚，然而在搜索引擎领域中仍然取得了非常多的成绩。例如北京大学的研究者们研究开发出了“天网”搜索引擎系统，同时在全球的搜索引擎行业中，中国的百度已然成为了世界上使用人数最多的中文搜索引擎。

现代搜索引擎按照信息的组织方式和服务的提供方式将搜索引擎分成以下三类。

（1）目录式搜索引擎

目录式搜索引擎是采用人工发现有用信息，同时依靠研究人员自己所拥有的知识对发现的有用信息进行人工分类，然后提取出网页信息中的主题词，接着根据关键字进行索引，最后生成相关的目录。我们用户可以通过两种方法来使用：一种是浏览式查询。它是从最高层的根目录开始搜索，然后沿着目录树逐层逐渐的深入，直到用户找到自己所需要的信息为止；另一种是通过用户输入的关键词来进行检索。这一类搜索引擎的优点是检索效率比较高，但也有其不足之处，就是建立索引的效率很低，同时网站信息更新的速度也比较慢。著名的目录式搜索引擎有雅虎和新浪等。

（2）全文搜索引擎

全文搜索引擎的关键技术是一个被叫做网络爬虫（Spider）或网络网络爬虫（Robot）的程序，它是根据自己的特定搜索策略和相应的网络协议，自动地从互联网上爬取网页信息，然后建立索引。并定期采用一定的方法对索引库进行更新，从而可以保证本地索引库与互联网上信息的实时有效对应。这类搜索引擎的优点就是依靠网络爬虫程序自动地爬取、维护和更新网页信息，从而能够将目录式搜索引擎中的工作人员解放出来，同时它的索引库可以很大，和目录是搜索引擎相比较实时性更强。著名的全文搜索引擎有Google，百度等。

（3）元搜索引擎

元搜索引擎也叫做集合式搜索引擎，顾名思义，它能够同时管理多个搜索引擎，给用户提供统一的检索接口。所以元搜索引擎可以理解为一个由很多的搜索引擎系统组建而成的搜索引擎系统群。通常，元搜索引擎有两种工作方式。一种是并行式元搜索引擎或者叫做分布式元搜索引擎，另外一种是单机式元搜索引擎，并行式元搜索引

擎在用户提交查询词后，能够同时将用户提交的查询词请求发给多个搜索引擎系统，然后在接收到各个搜索引擎返回的结果列表后，根据自己特定的网页排序算法进行重新排序，最后将排序的结果页面返回给用户；单机式元搜索引擎只能提供给用户一个搜索引擎的排序结果页面列表，最后只能由用户自己来选择使用哪个搜索引擎进行查询，所以可以说它是基于搜索引擎的搜索引擎，可以用来帮助用户选择使用哪种搜索引擎。

虽然现在的搜索引擎分类很多，但是他们的基本思想和原理都是相同的。图1-1展示了搜索引擎的基本原理。首先是网络爬虫程序在互联网上进行抓取目标站点的信息，然后将抓取下来的信息进行分析处理，分词和索引，并按照一定的数据结构存储到本地网页索引数据库，最后用户通过自己的客户端浏览从这些被索引的数据中检索出自己想要的信息。

日常生活中不可或缺的一部分，然而我们用户使用通用搜索引擎系统，以手机数码产品的品牌名、系列等作为关键字来搜索相关产品时，网站返回给用户的结果中有大量的无用信息，很难帮助用户进行了解和选择。本文针对这个实际问题，根据用户搜索手机数码产品相关信息的需求，提出并设计了一个基于Lucene的面向手机数码领域的垂直搜索引擎系统，最后根据设计进行相关模块功能以及整个系统功能的实现。

1.3 本文的研究内容

本文针对手机数码领域，以手机数码的网站作为本文主题爬虫爬取的对象，最后通过分析、研究和设计实现了基于Lucene的Nutch垂直搜索引擎系统。本文的研究内容包括：

(1)面向手机数码产品领域网络爬虫的设计

垂直搜索引擎系统的网页爬取和通用搜索引擎系统是有很大差别的，本文依照手机数码领域垂直搜索引擎系统的特点，设计了相应的主题网络爬虫。

(2)改进了Lucene索引器的网页排序算法

由于垂直搜索引擎最终返回的检索网页结果对用户来说是至关重要的，所以怎样能够从多的网页信息集合中把最重要的用户真正想要的结果页面选择出来排在网页集合的前面，是我们研究和设计垂直搜索引擎系统的关键问题之一。经过改进后的网页排序算法除了考虑到原来Lucene自带的词频因素外，同时还考虑到：网页文档的链接信息、正文大小以及用户查询关键词在文档中位置的情况等相关因素。

(3)面向手机数码领域垂直搜索引擎系统的设计

通过详细分析面向手机数码领域的垂直搜索引擎系统所需要的关键技术，包括手机数码领域网页信息的搜索和爬取、对爬取到的网页信息的处理、建立网页信息的索引库和提供给用户进行检索，最后给出了该垂直搜索引擎系统的总体设计结构以及各个功能模块的模块设计。

(4)面向手机数码领域的垂直搜索引擎系统的实现

最后在基于Linux+Nutch+Lucene+Tomcat的开发环境与技术支持下实现了面向手机数码领域的垂直搜索引擎系统设计的所有功能。

1.4 本文的组织结构

本文各章节结构安排如下：

第一章主要介绍搜索引擎的历史发展情况和研究的背景，同时阐述了本文的研究内容和各个章节的安排。

第二章介绍搜索引擎的关键技术，同时分析了搜索引擎和垂直搜索引擎的工作原理以及各自的差异，并详细说明垂直搜索引擎研究中需要用到的关键技术，重点对网络爬虫的信息爬取技术和用户检索结果的排序技术进行了研究与分析。

第三章介绍开源搜索引擎Nutch和全文检索工具包Lucene的基本概念、工作原理，同时针对全文检索工具包Lucene的检索结果排序算法的不足之处，提出了一种改进的检索结果排序算法。

第四章根据相关的功能需求，对基于Lucene的面向手机数码领域的垂直搜索引擎系统的各个功能模块进行详细的分析与设计。

第五章利用垂直搜索引擎系统的开发环境Linux和开发工具Cygwin、Tomcat，同时使用Java语言编程实现系统中的相关算法和模块的具体功能。

第二章搜索引擎的关键技术

2.1 搜索引擎的基本架构

不一样的搜索引擎采用不一样的架构，会有一定程度的差异，但是他们的基本功能模块是相似的。如图2-1-1给我们展示了一个通用搜索引擎基本工作原理的架构。

索引库是下载的网页存储的地方，采用倒排索引之后，这里的网页信息库已经变成了倒排结构。通常，倒排索引技术就是通过将Document→Word的初始状态结构（如图2-1-2所示）转变为Word→Document的倒排索引结构（如图2-1-3所示）。全文搜索引擎采用这样的倒排索引结构的好处就是可以根据对Word的搜索很快就能定位到相应的是哪个Document，例如：当在搜索引擎中搜索“我们”的时候，返回的结果中应该会出现Document1和Document2[1]。

索引器(Indexer)是用于生成索引的一个程序模块，我们将处理过的大量网页信息包装后，转变成相应的文档，然后交给索引器来进行索引，索引器就会在索引库中建立该文档的一个索引，这个结构也就是倒排索引结构[2]。

检索器（Searcher）是用户在使用搜索引擎进行信息查询时的一个程序模块。当用户提交自己查询关键词给检索器客户端以后，检索器首先对用户提交的查询关键词进行分词等处理操作，然后生成相应的Query去网页信息索引库中进行关键词匹配，最后才将查询匹配得到的网页结果以一定的列表排序格式返回给用户[3]。

索引库、索引器、检索器是搜索引擎的三大核心程序模块。我们研究者可以利用这三大程序模块来建立一个垂直搜索引擎[4]。本文利用到的Lucene 全文索引工具包的直接调用就等同于建立了一个搜索引擎，Lucene本身就可以建立索引和进行相关搜索，不过这样简单的搜索引擎只有开发人员才能够熟练使用，用户使用起来将会非常的困难，而且对各种网络上现有的文件（MS Word、MS Excel、HTML等）处理起来很不方便，所以想要搭建真正用户能够直接使用的垂直搜索引擎还需要其他程序模块的功能支持。

图2-1-1 搜索引擎基本架构

文档解析模块用于解析爬取到的特定格式的文档，通过提取出文档中的文字信息，同时建立文档对象，然后再交给索引器进行处理，网页处理模块用于对Crawler 获取的网页信息进行解析，提取出文字信息，然后建立文档对象后再交给索引器进行处理[5] [6]。

用户查询界面是用户通过向搜索引擎检索端输入自己的关键词时才使用到，它考虑到用户的使用习惯，从用户出发，提供方便、优化、快捷的查询界面，并将最终搜

索引擎查询的结果能够按照用户的要求呈现给用户[6]。

图2-1-2 文档的初始结构

图2-1-3 文档的倒排结构

2.2 垂直搜索引擎

2.2.1 垂直搜索引擎定义

垂直搜索引擎也叫专业搜索引擎，它是针对某一个特定领域或行业的主题搜索引擎，是通用搜索引擎功能上的细分和扩展[7]。和通用搜索引擎相比，垂直搜索引擎的优点是查询准确，响应速度快。它是针对通用搜索引擎的信息量很大、查询很不准确、专业深度不够等问题提出来的一种新的搜索引擎模式，主要目的在于为某一专业领域、某类人群或某个特定的需求提供的相关的信息和服务。它的特点就是专、精、深且具有行业色彩。

2.2.2 垂直搜索引擎特点

垂直搜索引擎和通用搜索引擎的最大区别是对网页信息的处理方式不同，垂直搜索引擎对网页数据进行了结构化抽取和整理。也就是将网页中的非结构化数据抽取整理出来，构成特定的结构化信息数据。在整个过程中，网页数据由非结构化数据转变成结构化数据，最后再经过深度加工处理之后以非结构化的方式或结构化的数据返回给用户。总之一句话，垂直搜索引擎是针对某个特定领域或行业，其主要特点[8]如下：

(1) 垂直搜索引擎中的主题网络爬虫爬取到的网页数据主要来源于搜索引擎关注的专门的网站。

(2) 垂直搜索引擎中的主题网络爬虫爬取到的网页数据主要都是结构化数据和元数据。

(3) 垂直搜索引擎的搜索策略是基于结构化数据和元数据的。

2.2.3 垂直搜索引擎优势

和通用搜索引擎相比，垂直搜索引擎的优势表现在，通用搜索引擎主要是将爬取到的网页信息存放到本地数据库。然而垂直搜索引擎主要是以网页的方式返回给用户，通用搜索引擎主要是利用一个网络爬虫程序到互联网上进行随机爬取，一般是按照某个特定的时间周期进行二次爬取，以便于更新网页库；垂直搜索引擎同样有一个网络爬虫程序，但是它的网络爬虫程序只是在一些特定的网站上进行爬取，并不会对网页上的每一个超链接都感兴趣，相对来说，垂直搜索引擎的信息收录范围大大缩小了，但并不意味着网页内容的缩小。

和通用的搜索引擎相比，垂直搜索引擎的查全率和查准率都提高了很多，因为它只是关注了一小部分特定的网站，可以做到内容上很齐全，准确率很高。

2.3 网络爬虫

网络爬虫(Web Crawler)也称作网络蜘蛛，是搜索引擎的核心功能模块之一，它的功能是从各个网站上获取网页文件（这个过程叫网页爬取）并提取出有用的文字信息，然后分词、交给索引器建立索引[7]。

网络爬虫的爬行策略主要有广度优先策略和深度优先策略[9]。广度优先策略首先爬行第一层的网页，将第一层网页解析所得的发出链接存起来，待第一层链接都处理完毕，接着依次处理第二层的链接，如此一层一层地进行下去。深度优先策略从第一层链接中选取一个，抓取其指向网页并解析出发出链接，然后从发出链接中选出一个继续前述过程，直到达到一定得限制条件后，重返上层选取新的链接进行爬行。两种策略如图2-3所示。

图2-3 广度优先与深度优先策略对比

2.4 主题网络爬虫技术研究

2.4.1 主题网络爬虫工作原理及关键技术概述

通用搜索引擎的信息搜集任务主要是超链接URL抓取的过程。通用的网络爬虫进入若干初始的种子网页中，爬取信息，同时新的URL链接不断的被放在队列中等待被抓取，直到达到预期设定的阈值或者URL列表为空时停止，它的缺点是网页信息爬取的不确定性。相比较而言，主题网络爬虫则具有非常明显的优势，在主题网络爬虫中引入了智能分析步骤，也就是在URL 抓取之前进行主题的筛选，将与主题相关的URL放入待抓取的URL队列中，与主题不相关的URL则去除，不断重复这个过程，直到达到设定的阈值或者URL列表为空为止，这样的话既可以缩小爬取的范围，又可以将用户查询所需的专业性很强的关键词和相关的结果保存下来，为以后相同或相似的搜索提供参考，并且能够保证信息的及时更新信息，也改善了之前比较容易出现的空链接、死链接现象。通用搜索引擎与垂直搜索引擎的爬虫过程对比流程如

图2.4.1 所示：

图 2.4.1 通用网络爬虫和主题网络爬虫的基本工作原理架构流程对比与通用搜索引擎相比，垂直（Vertical）搜索引擎主要有三个方面的突破：一是主体网页目标的阐述和定义，二是URL主题相关度的判定算法，三是主题爬虫的搜索策略。在以上三个关键性技术问题中，URL主题的相关度算法和主题爬虫的搜索策略是垂直搜索引擎的核心技术。

2.4.2 主题网络爬虫结构模型

主题网络爬虫是以普通网络爬虫为基础的，是对普通网络爬虫功能的提升和改进。其中主要的改进部分为以下三个方面，如图 2.4.2 所示：

如何做好一个垂直搜索网站

“确解用户之意，切返用户之需。” “门户网站都想着是怎样省钱，而不是怎样花钱来买技术。” “搜索引擎不是人人都能做的领域，进入的门槛比较高。” “只是优秀还不够，最好的方式是将一件事情做到极致。”(google十大真理) “做搜索引擎需要专注” “对于一项排到第四的业务，门户很难做到专注。” “用户无法描述道他要找什么，除非让他看到想找的东西。” “所谓楔形，其实就是个倒三角，倒三角的尖端部分代表搜索技术，中部是基于技术的产品应用平台，最上端是对整个搜索引擎用户人群文化的认识和理解，以及现代公司竞争最关键也最捉摸不定的所谓品牌。” “楔形”蕴涵的另一个意义是:楔子要打到墙里，尖端是否锐利很重要，但楔子的破坏性有多强，究竟能在墙面挤压出多大的空间，其中端、后端的沉稳与厚重才是关键。搜索引擎的技术和理念都是需要时间和经验的积累的，更是需要长期不断的完善进步的，绝对不要认为可以一蹴而就，要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。着急不得。原因是因为搜索引擎太复杂，而且“用户无法描述他要找什么，除非让他看到想找的东西。” 一切都需要摸索，尝试，问题需要一个一个解决，用户的需要得一点点的挖掘。搜索引擎是一个产品，给用户提供服务的产品，需要长期的不断的改进升级调整才能持续不断的提用户体验，需要满足用户不断增长并且变化的需求、需要不断适应网络的变化。这是因为网络环境是不断变化的、网民的需求也是不断变化的。千万不要把搜索当成项目来做，做完了撂那让用户去用那你肯定没戏。在搜索引擎领域是讲体验的、新的引擎如果用户体验一旦整体上有领先一年以上的差距并且持续2年，那前期的领先者的优势就荡然无存，因为搜索引擎的用户转移成本相对而言是比较低的而且口碑是最佳的传播方式。如果一个搜索引擎不能持续不断的技术创新理念创新，那对于这个搜索引擎来说就等于死亡。我们一般形容搜索引擎的领先是以时间计算的。比如:中搜离百度整体差距×年，百度离google的整体差距×年，……只要你能在用户体验上保持一年的领先优势持续2年，不需要炒作，一切纷至沓来。在用户体验面前，任何的炒作都显得很渺小。作垂直搜索引擎，麻雀虽小，但是五脏俱全。无论理念文化、产品管理、应用、技术都和搜索引擎的楔形理论没有什么区别。所以要做好一垂直搜索必须解决这几个方面。

常用的26条学术搜索引擎

常用的26条学术搜索引擎学术搜索是一项免费服务，可以帮助快速寻找学术资料，如专家评审文献、论文、书籍、预印本、摘要以及技术报告。这里为你介绍26个学术搜索引擎。 1、 Google 学术搜索虽然还是Beta版，但个人已觉得现在已经是很好很强大了，Google学术搜索滤掉了普通搜索结果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次数。略显不足的是，它搜索出来的结果没有按照权威度（譬如影响因子、引用次数）依次排列，在中国搜索出来的，前几页可能大部分为中文的一些期刊的文章。 2、Scirus学术搜索 Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一，其口号为“for scientific informationonly”。它由Elsevier科学出版社开发，用于搜索期刊和专利，效果很不错！Scirus覆盖的学科范围包括：农业与生物学，天文学，生物科学，化学与化工，计算机科学，地球与行星科学，经济、金融与管理科学，工程、能源与技术，环境科学，语言学，法学，生命科学，材料科学，数学，医学，神经系统科学，药理学，物理学，心理学，社会与行为科学，社会学等。 3、Base学术搜索 BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源（超过200 万个文档）的数据。 4、Vascoda Vascoda是一个交叉学科门户网站的原型，它注重特定主题的聚合，集成了图书馆的收藏、文献数据库和附加的学术内容。 5、Goole 与google比较了一下发现，能搜索到一些google搜索不到的好东东。它界面简洁，功能强大，速度快，YAHOO、网易都采用了它的搜索技术。各位可以一试。 6、A9

基于JAVA技术搜索引擎的设计与实现

龙源期刊网 https://www.sodocs.net/doc/9c7817982.html, 基于JAVA技术搜索引擎的设计与实现作者：刘智勇来源：《数字技术与应用》2017年第05期摘要：随着科技的进步与发展，互联网成为21世纪的宠儿，网络信息也复杂多样。这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题，比如如何在这海量的信息里面找到自己所需要的内容，成为当前互联网技术的热门领域。互联网信息复杂多样，因此想要迅速、快捷的找到所需要的信息内容，就需要搜索引擎来帮忙实现。本文就对搜索引擎的工作原理，组成和数据结构等方面进行分析，对搜索引擎未来的发展方向进行探索。众所周知，智能化是未来的一个大的趋势，想要实现搜索引擎的智能化，就需要使搜索引擎具备自我学习的能力，适应用户的查询需求。关键词：搜索引擎；智能化；信息检索中图分类号：TP391.3 文献标识码：A 文章编号：1007-9416（2017）05-0205-01 1 搜索引擎概述随着信息时代的来临，互联网的迅速普及应用，已经成为我们正常生活中不可或缺的一部分。因为互联网信息具备共享等多种特性，使得网络信息成倍的增加。谷歌公司所收录的网页信息都已经过亿，而且每天还在不断的攀升，想要在这么多数据里面，选取对自己有用的信息，就需要借助搜索引擎来进行实现。搜索引擎是从1994年诞生，随着互联网的信息日益增多，搜索引擎也在不断的发展，从1994年到现在历经三个阶段。搜索引擎的第一个阶段就是1994年到1996年，这个阶段的搜索引擎以集中式检索为主。当时网络信息并没有很多，一般都是少于百万的网页，也没有索引，检索速度也非常慢。也是采用网络、数据库等关键技术来实现。第二个阶段是1996年到1998年，这个期间，搜索引擎采用分布式检索方案，使用多个微型计算机来协同工作，其目的是为了提高数据规模和响应速度。一般可以响应千万次的用户检索请求。第三代搜索引擎，就当前所使用的搜索引擎，也是搜索引擎极为繁荣的时期。它拥有完整的索引数据库，除了一般的搜索，还有主题搜索和地域搜索。但是这些搜索结果反馈给用户的数据量较大，检索结果的相关度又成为研究的核心。我们通常所用的搜索引擎也分为多种，按照信息的搜集方法和服务提供方式的不同进行区分，常用的有三类，第一，目录式搜索引擎。它是以人工方式进行信息的搜集，由编辑员进行审查并制作成信息摘要，将其进行分类置入架构中去。这类搜索方式的搜索结果准确，信息质量高，但是需要大量的人工成本，信息更新不及时，维护量大。第二，机器人搜索引擎。就是我们常说的网络爬虫，是由一个网络蜘蛛的机器人程序以某种策略自动地在互联网中搜集和发现信息，这种信息查询方式是由索引器完成的。索引器为搜集到的信息建立一个完整的索引，

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展夏旭李健康（第一军医大学图书馆广州510515）摘要: 以WWW网络搜索引擎的发展历程为基础，综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展，探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析，希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。关键词：搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新，而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines)，用于快速搜索WWW网络乃至因特上的有用信息，使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出，拉开了搜索引擎核心技术争夺战的序幕。可以预言，在今后一段相当长的时间里，搜索引擎还将有长足的发展和进步，检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义搜索引擎，Search engines，又称搜索机，Web搜索器，是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统，有的提供分类和关键词检索途径，有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理，自动建立索引，并通过检索接口为用户提供信息查询服务，能够自动对WWW资源建立索引或进行主题分类，并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游，不断搜集各类新网址及网页，形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快，特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎，相应地，集多种常规搜索引擎于一体的搜索引擎则称为（多）元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎，与独立搜索引擎的区别在于：它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎，甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库，却更多地提供统一界面，形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体，通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎，每条检索指令都自动通过预先配置的搜索引擎执行，免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.sodocs.net/doc/9c7817982.html,)能同时调用６个搜索引擎；Savvysearch (http://www. https://www.sodocs.net/doc/9c7817982.html,)可有选择地调用21个独立的搜索引擎，检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息，每次最多并行检索５个搜索引擎的数据库。Profusion (http://www. https://www.sodocs.net/doc/9c7817982.html,)最多同时调用９个独立的搜索引擎，调用方式有全部调用、系统自动选择最好的３个、系统自动选择最快的３个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

当今搜索引擎技术及发展趋势

当今搜索引擎技术及发展趋势随着互联网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找信息，就象大海捞针一样，搜索引擎技术恰好解决了这一难题（它可以为用户提供信息检索服务）。目前，搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎（Search Engine）是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计，全球目前的网页超过8亿，有效数据超过9T，并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息，必然会“大海捞针”无功而返。搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务，搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。一、分类按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类： 1．目录式搜索引擎：以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是：Yahoo、LookSmart、Open Directory、Go Guide等。2．机器人搜索引擎：由一个称为蜘蛛（Spider）的机器人程序以某种策略自动地在互联网中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google；国内代表为：“天网”、悠游、OpenFind等。 3．元搜索引擎：这类搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用所使用搜索引擎的功能，用户需要做更多的筛选。二、性能指标我们可以将WEB信息的搜索看作一个信息检索问题，即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率（Recall）和精度（Pricision）衡量一个搜索引擎的性能。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统（搜索引擎）的查全率；精度是检索出的相关文档数与检索出的文档总数的比率，衡量的是检索系统（搜索引擎）的查准率。对于一个检索系统来讲，召回率和精度不可能两全其美：召回率高时，精度低，精度高时，召回率低。所以常常用11种召回率下11种精度的平均值（即11点平均精度）来衡量一个检索系统的精度。对于搜索引擎系统来讲，因为没有一个搜索引擎系统能够搜集到所有的WEB网页，所以召回率很难计算。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素，最主要的是信息检索模型，包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制

一个小型搜索引擎的设计与实现

一个小型搜索引擎的设计与实现摘要随着互联网和宽带上网的普及，搜索引擎在中国异军突起，并日益渗透到人们的日常生活中，在互联网普及之前，人们查阅资料首先想到的是拥有大量书籍的资料的图书馆。但是今天很多人都会选择一种更方便、快捷、全面、准确的查阅方式--互联网。而帮助我们在整个互联网上快速地查找到目标信息的就是越来越被重视的搜索引擎。本文通过分析国内外搜索引擎的发展现状，提出了一种功能强大，操作简单，通用性强，可以满足用户对信息搜索需要,利用ASP技术实现的一个B/S体系结构的搜索引擎系统方案。文中着重论述了该系统的功能与实现、数据流程与存储、后台管理等。并对关键的有关技术作了较详细的介绍。论文在撰写过程中，力求将理论与系统应用相结合，对各种理论进行阐述的同时配合系统从实际应用和操作技巧上加以说明，希望能够更充分地体现到这些知识与技术在本系统中的应用与实现。关键词：搜索引擎；ASP；B/S；关键字

The Design and Implementation of a Small Search Engine Abstract With the popularization of the Internet and surfing the Net broadband search engine likes a dark horse in China, going to people?s daily life day by day. Before this, when people consult materials the first thought is the library that has a large number of books. Now, more and more people will choose Internet to search for information. It?s more convenient, and accurate for searching information. The search engine that helps us in the whole Internet to quickly identify target information is played more and more attention to. Through analyzing the current development of search engine in domestic and international, this paper gives a plan that achieves the formidable function, simply operating, stronger versatility and satisfies the users to the information search need, and realizes a systematic scheme of search engine of B/S system structure with the technology of ASP. This paper mainly describes the function and realization of this system, data procedure and storing, back-stage management, etc. And also introduces to the key relevant technology in detail. During this period, I?ve made a lot effort to union the theory and practice, and coordinates with system to explain from practical application and operation skill while explaining various kinds of theories, hope to more fully reflect the knowledge and application in this system of technology and realize. Key words:Search Engine; ASP; B/S; Keyword

如何测试搜索引擎的索引量大小

如何测试搜索引擎的索引量大小（前篇）背景知识：搜索引擎的质量指标一般包括相关性（Relevance）、时效性（Freshness）、全面性（Comprehensiveness）和可用性（Usability）等四个方面，今天我们要谈的索引量就属于完整性指标的范畴。首先需要注意的是，对于搜索引擎，网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量，因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华，去其糟粕，挑选出有价值的网页进行索引。因此，对用户而言，搜索引擎的索引量大小才更有意义。其次，无限制增大索引量并不一定能保证搜索质量的提升。一方面，在全面性指标中，除索引量外，还需要考虑到收录网页的质量和不同类型网页的分布。另一方面，搜索引擎的质量指标体系要保证四方面的均衡发展，不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20 亿量级，基本上可以满足用户的日常查询需求。然而，由于从外部无法直接测算出搜索引擎网页索引量的绝对值大小，很多搜索引擎服务商喜欢对外夸大自己的收录网页数，作为市场噱头。从1998年开始，Krishna Bharat和Andrei Broder就开始研究，如何通过第三方来客观比较不同搜索引擎索引量的大小。8年后，在今年5月份的WWW2006大会上，来自以色列的Ziv Bar-Yossef和Maxim Gurevich由于这方面的出色研究成果夺得了大会唯一的最佳论文奖。他们的研究算出了主流英文搜索引擎的索引量相对大小：雅虎是Google的1.28倍，Google是MSN的1.36倍。他们是如何算出这些数字的呢？下面我们将为搜索引擎爱好者介绍这个算法，以及探讨在中文搜索引擎上是如何应用的。概述搜索引擎的索引量或称覆盖率对搜索结果的相关性、时效性和找到率都具有深远的影响。出于市场运作的考虑，各大互联网搜索引擎不时对外公布自己索引的文档数量，然而这些数据往往不同程度地被加入了一些水份，可信度上有一个问号。因此，如何通过搜索引擎的公共接口，也就是通常所说的搜索框，比较客观、准确地测试它的索引量就成为了一个令人关注的问题。图1 对搜索引擎的索引采样

六大搜索引擎的比较

一、界面、广告以及速度搜索引擎在我们日常操作中的使用频率非常高，大家使用它的目的都非常明确，就是用它来搜寻需要的内容，而不会为搜索引擎的页面做过多的停留，因此搜索引擎的界面设计和速度就对我们的使用产生不小的影响，下面来看看这六款搜索引擎在界面和速度上的表现。谷歌、百度和微软的Live Search，这三大搜索引擎的界面大家都已经相当熟悉，它们有着共同的特点，就是简洁至极：网站LOGO、搜索框和按钮以及个别功能服务链接，除此以外，页面上就没有其他多余和花哨的东西了，给人的感觉非常清爽，界面一目了然，特别是Live Search在不失简洁的同时还通过一些小脚本和背景图片使得页面整体更加美观。三者使用起来都很方便，并且首页界面上没有任何第三方的广告。搜索结果页面，三者同样是采用简洁的风格，页面左侧排列着搜索结果，百度搜索结果页面右侧有不少广告，谷歌视关键词的不同也可能出现右侧广告。 Live Search的界面十分简洁且美观百度搜索结果页面右侧的广告与上面三者相比，雅虎全能搜在界面上显得更为活泼、色彩更加多样，并且在首页内容上也更丰富。首页上除了常规的搜索所需组成部分外，雅虎全能搜还加入了天气预报、邮箱登录的显示区域。虽然这些占据了一点点页面，但是它们功能实用且不影响正常使用。雅虎全能搜的搜索主页搜狗搜索的界面可谓结合了谷歌和Live Search：在布局上

与谷歌类似，而在细节上与Live Search有着异曲同工之妙；而搜索新军——网易有道的界面与谷歌、百度站在同一阵线，风格、版式都十分一致。在搜索结果页面中，搜狗搜索页面左侧有少量广告。总的来说，六款搜索引擎的界面设计都比较合理、美观、大方。雅虎全能搜的界面稍有不同，加入了天气预报和邮箱模块，而其他五款都尽量精简，其中谷歌、百度和有道趋于一致，采用最简的风格，而Live Search和搜狗在首页的一些细节上多加以了一些修饰。此外，值得一提的是一些搜索引擎对于Logo文化的重视，在传统的节日或者一些特殊的纪念日时都会将首页的Logo徽标换成与该日子相关的设计。其中在这方面要数谷歌和百度做得最为出色：无论是三八节、五一节这样的国际节日，或者情人节、万圣节这样的西方舶来物，还是春节、清明、端午等传统的中国农历节日，谷歌和百度都会精心设计相应的节日Logo；此外，谷歌在一些特殊的纪念日，如达芬奇诞辰、地球日之类的纪念日也会推出专门的徽标；而百度近期开始定期在首页推出一个搜索封面人物，以此反映对互联网时代风云人物的价值取向，十分有特色。雅虎和搜狗在节日Logo设计方面也有所表现，在节日时也可经常看到其专门的徽标；网易有道正式版新近推出不久，我们还无法对其在特殊Logo的设计上是否会有所表现作出评价。搜索引擎的特色Logo其实并不仅仅是一个单纯的设计，它还有更多的作用：它承载了一种信息，传达了搜索引擎提供商对于创新、

主题搜索引擎的设计与实现

第四代搜索引擎—— 主题搜索引擎的设计与实现 Design and Implementation of Focused Search Engine, 4th Generation Search Engine 北京大学计算机科学技术系计算机软件专业九七级学士毕业论文指导教师：李晓明王建勇作者：罗昶学号：09708136 2001年6月

指导老师对论文工作的评语 “面向主题的搜索引擎”，是我们“天网”搜索引擎下一步发展的重要方向之一。罗昶同学的毕业论文，是这一新方向的良好开端。论文从系统实现的角度，较全面的阐述了实现一个高质量主题搜索引擎系统的各个方面，着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用，并提出了“主题度”的概念，用以衡量主题搜索引擎的质量，意在指明一个搜索引擎在一个主题下的主题度越高，则它越贴近这个主题，用户就越容易找到跟这个主题相关的资料。特别地，将上述认识用于实践中，高质量地完成了一个面向影视主题的搜索引擎系统，搜集了十多万影视信息，在影视信息方面提供着比“天网”通用搜索引擎更有效的服务；论文内容丰富，所涉及的工作量很大，且有较强的系统性，是一篇很有参考价值的论文，为“天网”的发展做出了贡献。老师签名:__________

论文摘要互联网上的信息每天都以指数量级的速度爆炸性增长，面对如此浩瀚的资源，搜索引擎为所有网上冲浪的用户提供了一个入口，毫不夸张的说，所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。但是，随着信息多元化的增长，千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。同时，这样的通用搜索引擎在目前的硬件条件下，要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况，我们需要一个分类细致精确、对硬件要求低，数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略，因此它比前三代的搜索引擎将更加有效和准确，我们将这类完善的主题搜索引擎称为第四代搜索引擎。本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现，并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能，一个搜索引擎在一个主题下的主题度越高，证明这个搜索引擎越贴近这个主题，用户就越容易找到跟这个主题相关的资料。有了“主题度”，就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别，说明了前者在特定的主题下要比后者更准确贴切。关键词：互联网、万维网、搜索引擎、数据发掘、主题搜索、主题度

全文搜索引擎和目录搜索引擎区别

实验一：全文搜索引擎和目录索引引擎的区别是什么？全文搜索引擎因为依靠软件进行，所以数据库的容量非常庞大，但是，它的查询结果往往不够准确。分类目录依靠人工收集和整理网站，能够提供更为准确的查询结果，但收集的内容却非常有限。 1搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。 2搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功；而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。 3当用于在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录（Directory）。 4搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。因此，分类目录型搜索引擎营销方法与技术性搜索引擎的方式有很大的不同，需要充分了解这种区别，才能充分发挥各种不同搜索引擎的作用。实验二：百度的广告策略如何策划的。谈谈你的看法。百度的广告策略主要是通过搜索推广、网盟推广、增值服务（百度指数、百度统计、百度推广助手、百度商桥）、其他推广服务（百度图片推广、百度品牌专区、百度火爆地带）、专业客户服务等几项来进行的。百度推广流程是： 1. 搜索：网民在百度搜索自己关注的关键词信息 2. 推广：企业的推广信息展现在关键词对应的搜索结果页 3. 点击：用户点击推广信息进入企业网站 4. 成交：通过沟通了解，双方达成交易百度将互联网众多内容网站整合，建立了国内最具实力的联盟体系；百度联盟囊括了24个行业类别的优质网站，加盟合作网站累计超过30万家，影响力覆盖95%以上的中国网民。百度品牌专区是在网页搜索结果最上方为著名品牌量身定制的资讯发布平台，是为提升网民搜索体验而整合文字、图片、视频等多种展现结果的创新搜索模式。百度火爆地带是一种针对特定关键词的网络推广方式，按时间段固定付费，出现在百度网页搜索结果第一页的右侧，不同位置价格不同。百度图片推广是一种针对特定关键词的网络推广方式，按时间段固定付费，出现在百度图片搜索结果第一页的结果区域，不同词汇价格不同。企业购买了图片推广关键词后，就会被主动查找这些关键词的用户找到并向其展示企业推广图片，给企业带来商业机会！实验三：各个搜索引擎对同类网站的收录情况是否相同？如果不相同，各个搜索引擎有什么特点？各个搜索引擎对同类网站的收录情况不尽相同。百度与谷歌属于全文引擎搜索，其网页数据库的更新速度也不相同，但收录网页数与更新的速度是谷歌比百度更快，内容更丰富。而雅

垂直搜索引擎系统介绍

SOPI垂直搜索引擎系统介绍 SOPI垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案，让你也可以轻松拥有一个搜索引擎。可以针用于行业垂直信息进行搜索，网站搜索等各类应用。 SOPI垂直搜索引擎系统的应用特点 ●外网搜索引擎：众多内容型网站为了保持数据的最新，不得不花费大量的人力进行内容更新。SOPI 系统可以锁定需要的网站，进行定时采集此网站的最新内容；可以节省大量的人力成本，而且可以保证信息的全面性，同时结合搜索技术在海量的信息库中快速找到需要的信息。 ●高应用扩展性，可以根据用户需求快速配置成为不同类型的垂直搜索引擎，如成为商机搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。 ●极少量的人工干预，系统管理员仅通过管理界面即可自动实现各类信息的搜索。大部分工作由系统自动完成。 ●自动生成对网站的配置，提高工作效率及降低工作难度，垂直搜索引擎对不同网站进行不同配置是必然的，本系统应用自动化技术将人工工作降到最低，将工作人员的技术要求降至最低。 ●可以从多个界而采集信息，系统进行自动合并，如从一个页面搜索产品信息，另一个网页搜索公司信息，将两个页面的内容自动合并。 ●站内搜索引擎：可以轻松将内部网站的内容进行索引，为企业提供企业知识管理，或为网站用户提供自身网站的搜索服务。 ●SOPI 搜索系统采用先进的索引机制，高效对全文进行索引及搜索，可以产生与百度和 GOOGLE 相同的准确结果，而且快速； SOPI搜索引擎系统的技术特点 ●使用与GOOGLE相同的数据库系统Oralce Berkeley DB嵌入式数据库，千万级数据状况下操作数据仍保持在毫秒级，与使用ORACLE或SqlServer数据库性能提升数百倍。●系统结构的合理分离有利于分布式架构，适应未来大量的搜索工作，可以轻易在多服务器环境中进行应用。 ●各子系统相互独立，任一子系统的停止运行不影响其他系统，有效保证稳定性；

搜索引擎

搜索引擎分析在当今的社会，上网成为了我们大部分人每天必不可少的一部分，网络具有太多的诱惑和开发的潜力，查询资料，消遣娱乐等等，但是这些大部分都离不开搜索引擎技术的应用。今天在我的这篇论文里将会对搜索引擎进行一个分析和相关知识的概括。就如大家所知道的互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。用户查询时，通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。1990年，加拿大麦吉尔大学计算机学院的师生开发出Archie。当时，万维网还没有出现，人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页，但和搜索引擎的基本工作方式是一样的：自动搜集信息资源、建立索引、提供检索服务。所以，Archie被公认为现代搜索引擎的鼻祖。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索

引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。那么搜索引擎将来的发展方向和发展的前景又是如何？我们就先从以下的各类主流搜索引擎先进行一个大致的分析。 1.全文索引全文搜索引擎是当今主要网络搜素时所应用的搜索引擎，在网络上也是大家所熟知的，比如google和百度都是我们平时经常使用的。它们从互联网提取各个网站的信息，建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。根据搜索结果来源的不同，全文搜索引擎可分为两类，一类拥有自己的检索程序，俗称“蜘蛛”程序或“机器人”程序，能自建网页数据库，搜索结果直接从自身的数据库中调用，上面提到的Google 和百度就属于这种类型；另一类则是租用其他搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos搜索引擎。在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，就是每隔一段时间，搜索引擎就会发启“蜘蛛”程序，对一定IP 地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。而另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。由于近年来搜索引擎索引规则发生很

搜索引擎的设计与实现

web搜索引擎的设计与实现

摘要随着网络的迅猛发展。网络成为信息的极其重要的来源地，越来越多的人从网络上获取自己所需要的信息，这就使得像Google[40]，百度[39]这样的通用搜索引擎变成了人们寻找信息必不可少的工具。本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上，结合小型搜索引擎的需求，参照了天网，lucene等搜索引擎的原理，构建了一个运行稳定，性能良好而且可扩充的小型搜索引擎系统，本文不仅仅完成了对整个系统的设计，并且完成了所有的编码工作。本文论述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势，分析了小型搜索引擎的需求，对系统开发中的一些问题，都给出了解决方案，并对方案进行详细设计，编码实现。论文的主要工作及创新如下： 1.在深刻理解网络爬虫的工作原理的基础上，使用数据库的来实现爬虫部分。 2.在深刻理解了中文切词原理的基础之上，对lucene的切词算法上做出了改进的基础上设计了自己的算法，对改进后的算法实现，并进行了准确率和效率的测试，证明在效率上确实提高。 3.在理解了排序索引部分的原理之后，设计了实现索引排序部分结构，完成了详细流程图和编码实现，对完成的代码进行测试。 4.在完成搜索部分设计后，觉得效率上还不能够达到系统的要求，于是为了提高系统的搜索效率，采用了缓存搜索页面和对搜索频率较高词语结果缓存的两级缓存原则来提高系统搜索效率。关键词：搜索引擎，网络爬虫，中文切词，排序索引

ABSTRACT With the rapidly developing of the network. Network became a vital information source, more and more people are obtaining the information that they need from the network,this making web search engine has become essential tool to people when they want to find some information from internet. In this paper, with in-depth study of the basic principles of general search engines, the design and core technology architecture, combining with the needs of small search engine and in the light of the "tianwang", lucene search engine, I build a stable, good performance and can be expanded small-scale search engine system, this article not only completed the design of the entire system, but also basically completed all the coding work. This article describle not only the background of search engines, but also the history of search engine developing and developing trends,and analyse the needs of small search engines and giving solutionsthe to the problems which was found in the development of the system ,and making a detailed program design, coding to achieve. The main thesis of the article and innovation are as follows: 1.with the deep understanding of the working principle of the network spider.I acheived network spider with using database system. 2.with the deep understanding of Chinese segmentation and segmentation algorithm of lucene system,I made my own segmentation algorithm,and give a lot of tests to my segmentation algorithm to provide that my segmentation algorithm is better. 3.with the deep understanding of sorted and index algorithm,I designed my own sorted and index algorithm with the data-struct I designed and coding it ,it was provided available after lots of tests. 4.after design of search part,I foud the efficiency of the part is not very poor,so I designed two-stage cache device to impove the efficiency of the system. Key words: search engine,net spider, Chinese segmentation,sorted and index

垂直搜索引擎发展方向

垂直搜索引擎发展方向来源：广告圈 https://www.sodocs.net/doc/9c7817982.html, 随着搜索经济的发展,垂直搜索引擎在搜索引擎行业中的地位越来越重要,并逐渐渗透到日常生活中。本文对搜索引擎的现状、优势,以及面临的问题进行分析,并对其今后的发展提出了一些可行性策略。垂直搜索引擎发展现状互联网最基础的功能即提供信息。网络推广2008年1月,中国互联网络信息中心在北京发布《第21次国际互联网络发展状况统计报告》,调查结果显示,目前2.1亿网民中使用搜索引擎的比例是72.4%,即已有1.52亿人从搜索引擎获益,半年净增加3086万人。位列网络应用中网络音乐、即时通信、网络影视和网络新闻之后的第五位,高于电子邮件。与其他国家相比,由于中国互联网仍旧是娱乐功能占主体,总体网民的搜索引擎使用率偏低。垂直搜索引擎是搜索引擎行业保持高增长的重要力量。据调查,目前中国互联网中的垂直搜索引擎日益发展壮大,不断有面向新行业的垂直搜索引擎网站出现,例如,有面向房子的搜房网,有面向求职的职业搜索,有面向学术的学术搜索等。目前垂直搜索引擎所用的技术模式和通用搜索引擎的技术基本相同。首先通过网络蜘蛛对互联网的网页进行抓取,进而获得元数据,然后对元数据进行分析处理,根据关键词的权重和其链接的关系,计算出该网页的重要度,存入数据库。当用户提交

关键词的时候,针对该关键词进行查询,进而将结果返回给用户,这就是垂直搜索引擎的一般工作流程。目前垂直搜索引擎的主要盈利模式是基于竞价排名的广告模式,网络推广具体广告主在向垂直搜索引擎购买该项服务后,通过注册一定数量的关键词,按照付费最高者排名靠前的原则,购买了同一关键词的网站按不同的顺序进行排名,出现在网民相应的搜索结果中。垂直搜索引擎的优势分析互联网迅速发展。依赖搜索引擎是避免信息爆炸的快捷方式,而对于一个行业,信息量也是越来越大,准确抓住需要的信息,过滤无用信息是每个行业的从业者必须面对的课题,垂直搜索引擎为他们提供了好工具,帮助他们把握住行业发展的方向,并为想了解该行业的人提供一个便利方式。商业公司对其日益重视。搜索引擎是人们登陆互联网的门户,垂直搜索引擎则是它所面向行业的门户,在这里进行广告投资,获得巨大收益的概率大,所以每个商业公司都会重视对其相关行业的垂直搜索引擎投资。拥有巨大价值的用户搜索数据。垂直搜索引擎是面向行业、专注行业的搜索引擎,而使用垂直搜索引擎的人也都是和该行业有着密切关系的人,垂直搜索引擎记录着这些人的搜索数据,这些数据经过整理之后将会对该行业的发展有巨大的指导作用和巨大的价值。垂直搜索引擎面临的问题 (一)搜索排名与搜索结果的用户满意度不一致