欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

中国搜索搜索引擎一体机

科普小知识2021-11-20 16:09:04
...

中国搜索研制发布的搜索引擎一体机,旨在将多年积累的、处在行业尖端水平的互联网大搜索引擎技术,与当前主流的硬件设备相结合,并经过优化配置后,形成一套软硬件集成的搜索引擎整体解决方案(在中国搜索大数据解决方案整体框架中,本产品对应于“搜索-发现-分析引擎”所包含的服务内容),能够对*、媒体、科研、企业、金融机构、互联网公司等机构拥有的网页、文档、数据库、日志等数据进行高效安全的全局搜索、分类搜索、精准搜索和关联搜索等。

1、产品定位

中国搜索搜索引擎一体机实现了弹性分布式可扩展架构,可索引的数据量高达数百亿,在大量用户高并发请求下同时又能提供极快的响应速度。简而言之,中国搜索搜索引擎一体机,是将Google级搜索引擎技术引入到各类机构自有的IT解决方案中,帮助企业级用户构建自己的搜索平台,并可提供用户和开发者基于搜索的信息检索、分析、发布服务及工具。

2、产品应用范围

搜索引擎一体机的应用范围很广,可以说,只要有数据(产生数据、存储数据、需要利用数据)的机构,都会有对数据进行搜索及挖掘利用的需求,尤其是拥有海量数据的机构,对大数据处理、搜索和挖掘分析的需求更为强烈。该产品热点应用行业对象有:互联网、电信、金融、医疗、制造、流通、*(*、统计、税务、气象)等等。典型的应用包括(不限于):


用于门户网站(群)发布信息的站内搜索:在互联网时代,门户网站已经成为*、媒体、企业、金融机构等向公众进行宣传、展示、服务和互动的最主要媒介和窗口,每天都在发布和积累大量的信息、数据,很多大型网站往往以网站群的形式推出,包含有多个子站点,很多有价值的信息往往淹没在了信息的海洋中。为了让网民快速找到所关心的资讯、政策、服务等,网站需要提供一个准确、全面、快速、智能化的搜索引擎,将网站中的文字、图片、音视频、互动应用(如论坛等)发布的UGC信息等通过一键式搜索展示给用户,从而提升网站的整体服务能力和效果。此外,通过建立站群或站内搜索,可将原本各自独立的网站后台支撑应用系统的信息进行整合和关联,从而为网民提供全方位的信息服务。


用于机构内部办公自动化、ERP、财务等系统所产生的信息的搜索:无论是*机构,还是企业,或是媒体等,都需要建设内部信息化系统来提升工作效率,增强沟通,进行资产管理和文档管理等,大部分企业机构内部数据量已超过TB级,且有相当一部分达到数百TB甚至PB级,这些数据80%是非结构化的(如word、pdf等文档,图片,音视频等多媒体对象),且年度以60%左右的比率增长,如何在海量的信息中快速定位到所需的业务资料(如某份历史合同或资产记录),同时又能跨多个业务系统找到相关联或同类的信息,打破企业内常见的IT系统信息孤岛效应,这就需要建立一套可支持多个IT系统进行信息同步和统一搜索的强大的搜索引擎平台。而中国搜索提供的搜索引擎一体机,可以很好地完成这项任务,构建整合了关系型数据库、非关系型数据库、文件系统、实时数据流等数据源信息的跨系统综合搜索平台,通过统一的搜索窗口获取和展示机构内所有的数字化内容。


用于构建行业垂直搜索引擎:目前垂直类行业门户和搜索网站如雨后春笋般涌现出来,比如旅游行业专业的搜索引擎和旅游媒体“酷讯旅游网”,购物类垂直搜索门户“搜狗购物”搜索,化工类专业垂直搜索“化化网”等。这类网站需要采集获取特定行业领域的资讯、数据、报告、产品等,进行加工整理后,通过专业化的搜索引擎应用和界面与网民进行互动。中国搜索发布的搜索引擎一体机,结合信息采集一体机产品,可以深度采集互联网上特定行业领域的信息,经过整合、加工、分类整理后形成有价值的资源库,并通过强大的搜索能力和挖掘分析能力,为行业门户建设单位提供专业化的垂直搜索平台支撑。


用于网络舆情监测分析应用:网络舆情分析系统本质上是对互联网上的海量媒体信息进行收集、分析、搜索和展示的工具,而搜索引擎是这类系统的核心,舆情系统建设的好坏,取决于搜索引擎的能力和数据挖掘的能力,而中国搜索的搜索引擎一体机,正是脱胎于互联网大搜索引擎,且具备对海量数据进行挖掘分析的能力,是构建网络舆情监测服务非常优秀的支撑系统,可以为*、企业等客户搭建舆情监测平台,或者为IT解决方案供应商搭建舆情监测平台提供支撑环境。


用于各类文档(PDF、Word、Excel等)和记录(票据、数据条目等)的搜索:无论是组织还是个人,往往积累了大量的文档,且散落在个人主机、某文件服务器或者某IT应用系统中,查找起来非常困难,也难以汇总或聚合同类或相似的文档材料,有些企业或*机构等期望建立知识管理平台,对组织内有价值的资料进行分类管理,这些资料往往也是海量的,为了快速查找到特定资源,并能够发现相关联的资料、知识点、专家人物等,需要强大的搜索引擎支撑。中国搜索的搜索引擎一体机可以成为该应用的核心驱动力


用于多媒体资料的搜索(图片、音频、视频等)和关联挖掘:电视台、报社、通讯社等每天产生和存储大量的新闻性材料,且是多种媒体格式的,多年积累的数据累计可达到数亿条,PB级别的存储量。这些数据一方面要提供给媒体机构内部使用,查找当前或历史的新闻素材或成品,一方面要通过相关服务系统提供给合作媒体或机构单位,也需要通过网站、移动端等渠道提供给广大网民。海量资讯除了提供分类浏览外,搜索引擎是必不可少的。除了搜索的需求,媒体机构对于历史资料的关联分析和挖掘的需求在新媒体时代也越来越强烈,以便为网民提供深度阅读、关联阅读和全媒体展示服务。大型媒体机构需要强大而高效的搜索平台,来协助解决PB级别数据的索引、分析、关联、检索和展现等问题,这需要专业级的解决方案,往往需要部署大规模的集群化搜索引擎环境来支撑,而中国搜索的搜索引擎一体机可以轻松应对这样的需求场景。


用于各IT系统所产生的日志信息的搜索和分析:例如电信企业、电子商务网站、银行等机构,每天由机器(应用系统)产生大量的日志型短文本记录,这些记录不仅仅可用于追溯历史交易,通过对海量日志的分析挖掘,银行可以了解客户的行为属性,结合客户行为分析、客户信用度分析、客户风险分析以及客户的资产负债状况,甚至结合互联网社交媒体上的相关信息,银行可以进一步建立完善的风险防范体系,同时寻找最优的模式支持商业决策。这需要有支持海量数据进行搜索和分析的平台作为业务支撑,传统的IT架构难以解决非结构化和结构化数据统一搜索和分析的需求,而中国搜索在数据处理和搜索引擎上使用的架构方案可以应对不断增长的电信、金融等机构的数据处理需求


其它搜索类和数据分析类应用场景

3、产品功能

功能

说明

数据索引

充分利用当前流行的多核、大内存的计算资源,采用并行处理,多路合并的方式,实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。

具备三级缓存策略,结果集缓存,实时动态索引缓存和单个检索节点缓存;能够兼顾性能和索引容量。

搜索排序

内部支持离线挖掘信号和实时结果动态打分的排序机制,灵活多渠道干预搜索排序结果。

月光宝盒

专利性技术,提供一个灵活的可编程框架,将搜索引擎整合的数据,根据数据类型、行业特点和应用方向,匹配特定的搜索请求后返回可自定义展示形式的智能搜索结果框。例如:可互动的日历、地图、翻译、股票行情等等。

搜索分类

支持完全自定义的检索分类字段,支持几十到上百的检索项,且检索项内支持再检索。

搜索过滤

可以将某些相关联的内容和系统放置到一个搜索集合中,这样用户在搜索时可以直接选择对应的集合,从而过滤掉很多无关的信息,使搜索结果更准确。例如:将ERP和OA的内容放到一个集合中,用户通过选择集合,就可以直接搜索这两个系统中的内容,而不需要去关心别的系统。

关键字智能提示

对用户在搜索框中的输入内容提供智能匹配的下拉式列表,以便最快速匹配用户的搜索意图,获得更为准确的搜索结果。此功能也可利用来对某些搜索结果进行推广。

相关搜索

依据不同数据内容,自动生成相关搜索词条。

搜索内容过滤

支持白名单、黑名单、灰名单三类的搜索内容过滤功能

数据挖掘与分析

具备自动分类、聚类、主干抽取、意图挖掘、主题模型、隐式语义模型、自然语言处理、情感分析、趋势分析、链路分析等分析服务和工具。

结果输出与定制

支持多样的搜索结果,html,json,jsonp,xml,soap,csv,excel等文本内容;

架构扩展及高可用

支持系统容量和性能的线性可扩展,单台服务和多台服务之间能够自动完成角色切换和服务备份,满足7*24不间断服务的高可用性能指标。最大限度的使用服务器硬件资源,为客户提供尽可能服务需求。

备份

整个系统支持同构和异构模式的配置切换,备份完全灵活自主。

对象存储

基于Hadoop框架和中国搜索大数据技术,对海量数据进行分布式存储,支持文档、图像、视频等各类格式的高效、安全、高性能的存取服务。

语种支持

支持的多语言包括中、英、日、韩、俄、法、西、德、阿拉伯语等

管理和监控

提供一键部署,数据与服务分开管理,邮件短信告警,搜索结果干预及内容管理,词库管理,安全过滤控制等功能。

支持的接口

同时提供http,thrift,socket等通信接口。

4、产品特点优势


百亿级搜索架构能力:本搜索一体机产品是脱胎于世界级全网搜索引擎技术,在数百亿数据量上实际运行多年,在性能和稳定性方面远远超出企业级架构的搜索产品。


线性扩展能力:可根据用户实际的数据量和性能要求,从一台搜索一体机设备扩充到数千、数万台设备共同提供服务,标准化并经过优化的配置可大大简化用户进行搜索引擎系统扩容和升级的工作和综合投入。


优异的性能指标:同等硬件配置下,能提供更大的数据处理能力、更高的并发能力和更快的搜索响应时间。在高级型号配置下,能提供远超同类产品的性能。


与Hadoop架构的无缝整合:中国搜索搜索一体机系统与大数据一体机系统可联合起来提供服务,甚至可以融合到一起提供服务。在架构上天然支持Hadoop框架和相关服务。


数据挖掘能力:在中国搜索搜索引擎一体机产品中,提供与搜索服务相配套的自然语言处理、分类、聚类、数据抽取、数据挖掘和分析等技术和工具,用户可根据实际应用场景,在搜索一体机所提供的各类平台工具上进行高效的数据分析挖掘,为上层应用提供强大支撑。

5、产品配置和性能

中国搜索搜索引擎一体机产品包含了软件和硬件,以及两年的服务,打包模式购买,免去用户单独采购软件和硬件,并需要集成实施的额外成本。

目前提供两种配置型号:

★型号:CS-SEM-1001

该型号的搜索一体机是2U机架式设备。配置为:

CPU:英特尔®至强®E5-2620V2,2颗6核心主频2.1GHz;

内存:64GB;

硬盘:SATA3.5寸7200转(raid5)共4TB+300GBSSD;

Raid卡:2108卡(512M);

网卡:集成双千兆网卡*1;

远程管理卡;

双电源。

该配置支持单机可搜索1.2亿文件,在250并发请求下可获得毫秒级的响应速度。此外,多个“CS-SEM-1001”搜索一体机可以连接在一起,以支持更大的文件查询数量和集群架构下更高的搜索性能。在RAID架构与冗余组件的基础上,“CS-SEM-1001”提供了内置的冗余能力。

★型号:CS-SEM-1601

该型号的搜索一体机是2U机架式设备。配置为:

CPU:英特尔®至强®E5-2630v2*2,2颗6核心主频2.3GHz;

内存:128GB;

硬盘:SAS3.5寸10K转(raid5)共6TB+1TBSSD;

Raid卡:2208卡;

网卡:集成双千兆网卡*1;

远程管理卡;双电源。

该配置支持单机可搜索3.2亿文件,在100并发请求下可获得1秒内的响应速度;而在1.6亿数据量下可达到200并发,毫秒级响应时间。同样,多个“CS-SEM-1601”搜索一体机可以连接在一起,支持搜索数亿乃至数百亿的文件。“CS-SEM-1601”支持内置冗余和故障切换,提供最高的容量和可靠性。