您现在的位置是: 首页 > SEO教程 SEO教程

简述搜索引擎的工作原理_简述搜索引擎的工作原理和常用搜索引擎提供的检索方式

zmhk 2024-04-27 人已围观

简介简述搜索引擎的工作原理_简述搜索引擎的工作原理和常用搜索引擎提供的检索方式       最近有些忙碌,今天终于有时间和大家聊一聊“简述搜索引擎的工作原理”的话题。如果你对这个话题还比较陌生,那么这篇文章就是为你而写的,让我们一起来探索其中的奥秘

简述搜索引擎的工作原理_简述搜索引擎的工作原理和常用搜索引擎提供的检索方式

       最近有些忙碌,今天终于有时间和大家聊一聊“简述搜索引擎的工作原理”的话题。如果你对这个话题还比较陌生,那么这篇文章就是为你而写的,让我们一起来探索其中的奥秘吧。

1.搜索引擎工作原理

2.搜索引擎基本工作原理的工作原理

3.搜索引擎的工作原理分为

4.搜索引擎是如何工作的?

简述搜索引擎的工作原理_简述搜索引擎的工作原理和常用搜索引擎提供的检索方式

搜索引擎工作原理

       搜索引擎的工作原理总共有四步:

       第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链

       接,所以称为爬行。

       第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。

       第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

       第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。

       不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。

扩展资料:

       定义

       一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。

       检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

       起源

       所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity三名学生(AlanEmtage、Peter?

       Deutsch、BillWheelan)发明的Archie(ArchieFAQ)。AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

       Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。

       由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工具。

百度百科-搜索引擎

搜索引擎基本工作原理的工作原理

       搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullText Search Engine)、

       目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

       目录索引虽然有搜索功能,但从严格意义上算不上是真正的搜索引擎,只是一个目录列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。从这个角度说,搜索引擎按其工作方式分为全文搜索引擎和元搜索引擎两种。

工作原理

       搜索引擎的整个工作过程视为三个部分:

       一是蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;

       二是对原始网页数据库中的信息进行提取和组织,并建立索引库;

       三是根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。

       以上内容参考:百度百科-搜索引擎

搜索引擎的工作原理分为

       1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

       2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

       3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎是如何工作的?

       搜索引擎的工作原理简单来说可以分为三步:

       1、信息采集模块

       信息采集器是一个可以浏览网页的程序,被形容为“网络爬虫”。它首先打开一个网页,然后把该网页的链接作为浏览的起始地址,把被链接的网页获取过来,抽取网页中出现的链接,并通过一定算法决定下一步要访问哪些链接。

       同时,信息采集器将已经访问过的URL存储到自己的网页列表并打上已搜索的标记。自动标引程序检查该网页并为他创建一条索引记录,然后将该记录加入到整个查询表中。信息收集器再以该网页到超链接为起点继续重复这一访问过程直至结束。

       一般搜索引擎的采集器在搜索过程中只取链长比(超链接数目与文档长度的比值)小于某一阈值的页面,数据采集于内容页面,不涉及目录页面。在采集文档的同时记录各文档的地址信息、修改时间、文档长度等状态信息,用于站点资源的监视和资料库的更新。

       在采集过程中还可以构造适当的启发策略,指导采集器的搜索路径和采集范围,减少文档采集的盲目性。

       2、查询表模块

       查询表模块是一个全文索引数据库,他通过分析网页,排除HTML等语言的标记符号,将出现的所有字或词抽取出来,

       并记录每个字词出现的网址及相应位置(比如是出现在网页标题中,还是出现在简介或正文中),最后将这些数据存入查询表,成为直接提供给用户搜索的数据库。

       3、检索模块

       检索模块是实现检索功能的程序,其作用是将用户输入的检索表达式拆分成具有检索意义的字或词,再访问查询表,通过一定的匹配算法获得相应的检索结果。返回的结果一般根据词频和网页链接中反映的信息建立统计模型,按相关度由高到低的顺序输出。

       搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

       一. 基本概念

       搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

       二. 工作原理

       1.抓取网页

       每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

       2.处理网页

       搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

       3.提供检索服务

       用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

       好了,关于“简述搜索引擎的工作原理”的讨论到此结束。希望大家能够更深入地了解“简述搜索引擎的工作原理”,并从我的解答中获得一些启示。