您好,欢迎来到花生壳b2b外贸网信息发布平台!
18951535724
  • 搜索引擎后台计算系统

       2026-03-06 网络整理佚名1260
    核心提示:文章浏览阅读1.5k次,点赞2次,收藏7次。这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理、发展经历和应用等知识。希望文章对你有所帮助~如果有错误或不足之处,还请海涵。

    之后,搜索引擎会对网页进行解析,抽取出网页主体内容及页面中包含的指向其他页面的链接。为加快响应用户查询的速度,网页内容通过“倒排索引”这种高效查询数据结构保存,网页之间的链接关系也会保存。因为通过“链接分析”可以判断页面的相对重要性,对于为用户提供准确的搜索结果帮助很大。

    同时由于海量数据信息巨大,所以采用云存储与云计算平台作为搜索引擎及相关应用的基础支撑。上述是关于搜索引擎如何获取及存储海量的网页相关信息,不需要进行实时计算,所以被看做是搜索引擎的后台计算系统。

    搜索引擎前台计算系统

    搜索引擎的最重要目的是为用户提供准确全面的搜索结果,如何响应用户查询并实时地提供准确结果构成了搜索引擎前台计算系统。

    当搜索引擎接到用户的查询词后,首先对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。先在缓存中查找,缓存系统中存储了不同的查询意图对应的搜索结果,如果能在缓存中找到满足用户需求的信息,则直接返回给用户,即节省资源又加快响应速度。如果缓存中不存在,则调用“网页排序”模块功能。

    “网页排序”会根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜索结果。而网页排序中最重要的两个因素是:内容相似性因素(哪些网页和用户查询相关)和网页的重要性因素(哪些网页质量好或相对重要,通过链接分析结果获得)。然后网页进行排序,作为用户查询的搜索结果。

    同时,搜索引擎的“反作弊”模块主要自动发现那些通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置,这会严重影响搜索体验。现在也出现一种成功的新互联网公司屏蔽搜索引擎公司爬虫的现象,比如Facebook对Google的屏蔽,国内淘宝对百度的屏蔽,主要是商业公司之间的竞争策略,也可看做是垂直搜索和通用搜索的竞争。

    (三).搜索引擎简单技术分析

    按照技术原理,搜索引擎又可以分为三类:

    1.全文检索搜索引擎(Full Text Search Engine)

    国外具有代表的有Google、Yahoo、AltaVista、Teoma等,国内如百度、北大天网等。它们都是从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配相关的记录,然后按照一定的排序将结果返回给用户。

    2.目录搜索引擎(Search Index)

    严格意义上它不是真正的搜索引擎,仅仅是按照目录分类的网站链接列表,虽然它具有搜索功能。用户完全可以不用进行关键词查询,仅靠分类目录就可以找到需要的信息,最具代表性的是Yahoo雅虎。国内的搜狐、网易、新浪、hao123等都属于该类。

    目录界面一般采用分级结构,用户从基本的大类入口一级级向下访问,直到找到中意的内容,用户也可以通过目录提供的搜索功能查询关键词。由于采用人工分类,搜索结果比Robot搜索更精准,但局限性也明显。

    3.元搜索引擎(Meta Search Engine)

    在接受用户查询请求时,同时在其他多个引擎上进行搜索,它自己不进行WWW的遍历,也没有自己的索引数据库。当用户查询一个关键词时,它把查询请求转换为其他搜索引擎的命令形式,分别向其他搜索引擎提交,然后汇总这些搜索引擎返回的结果,返回给用户浏览器。著名的搜星搜索引擎就是一个中文元搜索引擎。

    搜索引擎通常由搜索器、索引器、检索器和用户接口四部分组成。

    就基于中文字词的特点,由于汉字字符数量多、编码方式复杂、中文词分词(字构成)困难等,所以中文搜索引擎必须要有专门的中文信息处理模块来完成中文文档的分词处理、码制转换和全角处理等工作。

    同时在“百度招聘”中你可能会看到它的核心部门包括网页搜索部、垂直搜索部等,那么垂直搜索是个什么东西呢?这里作简单的补充。

    垂直搜索引擎

    它也称为主题搜索引擎或专题搜索引擎。它是对网页库中的某类专门的信息进行一次整合,只关注某一领域或地域的信息,这些信息存储和索引之后,用户就可以检索只涉及这部分的信息。垂直搜索引擎与通用搜索引擎最大的区别是:通用搜索引擎是面向所有用户的,而垂直搜索引擎是面向某一领域的用户。如酒店、道路、公交、商店信息等,生活搜索引擎极大的满足了用户的出行和旅游。

    传统搜索引擎的核心技术常见包括:分词技术、网络蜘蛛、索引技术和词频指数。

    下一代搜索引擎的焦点:知识图谱

    随着智能搜索引擎的兴起,如Ghunt。其核心技术包括自动推理技术、本体知识系统、专家系统等,它更注重于其他科学相融合、个性化搜索、智能化比较高。但我此处就不在叙述,因为知识图谱或知识计算引擎被认为是下一代搜索引擎,我更想与大家分享这部分的基础知识。换句话说,它也是非常智能、需要理解用户需求、以用户为中心的搜索技术。

     
    举报收藏 0打赏 0评论 0
    更多>相关评论
    暂时没有评论,来说点什么吧
    更多>同类百科知识
    推荐图文
    推荐百科知识