欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

中国搜索大数据一体机产品系列综述

科普小知识2021-11-20 16:08:58
...

中国搜索所推出的大数据一体机系列产品,目标解决各行业用户对大数据应用在海量性、多样性、实时性、分布式、无限扩展等方面的问题。中国搜索凭借自身在大数据领域的技术积累和实践经验,将软硬件有机整合在一起,以整套解决方案的形式提供给客户,帮助客户从容应对大数据处理难题。

1、背景

近年来,“大数据”不仅成为科技界和企业界关注的热点,同时也受到各国*机构的高度重视。2012年3月,美国奥巴马*宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国*认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。

一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。

在2014年2月27日下午召开的*网络安全和信息化领导小组第一次会议上,*总书记讲话强调,信息资源日益成为重要生产要素和社会财富,信息掌握的多寡成为国家软实力和竞争力的重要标志。信息技术和产业发展程度决定着信息化发展水平,要加强核心技术自主创新和基础设施建设,提升信息采集、处理、传播、利用、安全能力,更好惠及民生。在2014年的两会上,*总理所作*工作报告中明确指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。

中国搜索信息科技股份有限公司(以下简称:中国搜索)在当前的时代背景下,不仅承担打造*先进网络文化传播平台,增强中国声音传播能力重要使命和责任,同时着力研发新一代信息技术,尤其是数字化、网络化、大数据、云计算等信息化新技术,形成具有自主知识产权的平台级产品,为国家、各级*机构、企事业单位、科研院所等提供大数据领域的尖端产品和解决方案。

2、“大数据”带来的挑战

根据IDC发布的数字宇宙研究报告(DigitalUniverse)显示,在接下来的8年中,我们所产生的数据量将超过40ZB(为40万亿GB),预计从现在到2020年,所有数据每两年将翻一番。

在应对处理大数据的各种技术挑战中,以下几个问题值得高度重视:

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。存储能力的增长远远赶不上数据的增长,设计合理的分层、分布式存储架构已成为信息系统的关键。

目前所产生的数据中,85%以上是非结构化和半结构化数据,这些非结构化数据的产生往往伴随着社交网络、移动计算、传感器等新兴渠道和技术的不断涌现和应用。传统的关系数据库无法胜任这些数据的处理,因为关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP理论(consistency,availability,tolerancetonetworkpartitions),在分布式系统中,一致性、可用性和分区容错性三者不可兼得,因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。系统的高扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据处理和计算技术。

大数据处理的另一项非常重要的需求是对海量数据的实时性分析处理,而不是传统的数据仓库主要通过离线或非实时计算来准备未来需要的分析结果。在互联网、金融、医疗等行业领域,每天均产生大量的数据,很多需要在数据产生时即进行分析,实时获得或近实时(秒级)获得分析结果,这同样对于系统的架构、处理性能和风险控制提出了很大挑战。

中国搜索所推出的大数据一体机系列产品,正是为了应对上述挑战,解决各行业用户对大数据应用在海量性、多样性、实时性、分布式、无限扩展等方面的问题。中国搜索凭借自身在大数据领域的技术积累和实践经验,将软硬件有机整合在一起,以整套解决方案的形式提供给客户,帮助客户从容应对大数据处理难题。

3、“大数据一体机”系列产品构成

一体机通过把传统架构中的处理器、存储、网络、平台架构软件、管理软件、数据库、应用软件等进行集成打包,形成一体化解决方案,在降低用户总体拥有成本(TCO)的同事,提升整体性能。一体机并不是简单的将软硬件进行融合,而是基于大量的测试和实践,将软件、硬件的匹配度、稳定性和性能进行平衡优化,解决通用性硬件设备加上软件系统在I/O读写、架构平滑升级扩展、兼容性等各方面存在的问题,能够实现快速部署、简化用户的IT基础架构、节省资源(空间、电力、人力等),提升系统的可用性以及扩展性。

中国搜索将多年积累的在大数据处理和应用服务构建、运营领域的经验,与当前主流的硬件技术相结合,推出的“大数据一体机”产品,是与中国搜索大数据解决方案框架相匹配的:


中国搜索大数据解决方案框架

如左图,中国搜索大数据解决方案框架所示,中国搜索的大数据解决方案由数据采集、大数据平台、搜索/发现/分析引擎、管理系统、服务接口以及硬件环境六部分组成。

其中:

数据采集:这是一套工具集,用于接入各类数据源,获得各类格式的数据,导入大数据平台或者搜索引擎系统。中国搜索目前支持对互联网/内联网、社交网络媒体、各类关系型数据库、非关系型数据库、Hadoop分布式文件系统、实时数据流、各类文档(Word、PDF、TXT、PPT等等)、日志等数据源进行数据采集和同步。

大数据平台:包含大数据基础服务组件,以及数据存取服务组件。其中,基础服务以基于Hadoop框架的HDFS分布式文件系统和MapReduce分布式计算为主,此外也包含了Zookeeper应用程序分布式协调服务、Hive数据仓库服务、Ganglia集群监控服务、Swift分布式云存储服务等等,这些服务为海量数据的分布式管理、存储、计算、监控等提供底层的支撑,此外,大数据平台也为应用端的数据存取提供了相应的服务支撑,包括RDBMS关系型数据的存储、实时数据流的消息队列存储、各种非关系型数据的存储服务、内存数据库及缓存等数据的存储等服务。

搜索-发现-分析引擎:在数据采集和大数据平台之上,我们提供对海量数据的高性能索引、数据处理、分析挖掘和调用发布服务。目前中国搜索能够提供对各类格式文件的搜索功能,对数据的智能处理(分类、聚类、信息抽取、相关推荐等等),此外能支持对海量数据的实时分析和离线分析。

系统管理:是一系列管理工具构成的对信息采集、大数据管理和搜索引擎等系统进行管理控制的集合。包含有对分布式集群进行部署、配置、监控、调度等的管理,以及对数据、服务、用户、安全等的管理功能,此外,还提供相关的开发管理系统。

接口:在整个大数据解决方案中,我们提供多种数据接入以及数据/服务调用接口,以便支持多种第三方应用的协作。

硬件环境:指上述系统(主要是软件)运行所依赖的硬件基础设施,通常,相关系统均需运行在服务器上,考虑到充分发挥相关软件的性能优势,中国搜索大数据解决方案中的各软件系统经过在多种硬件环境下的测试对比,从而提出最优化合理,同时具有较高性价比的硬件模块,组成一体机产品所需的硬件服务器设施。

在上述的大数据解决方案框架下,中国搜索对应推出的一体机系列产品包括:

1.中国搜索信息采集一体机

2.中国搜索搜索引擎一体机

3.中国搜索大数据一体机

这三类一体机产品分别对应图一展示的解决方案框架中的“数据采集”、“搜索-发现-分析引擎”以及“大数据平台”部分对应的功能,且这三类产品可以相互配合,为客户提供全方位的大数据处理能力。具体介绍详见各产品介绍材料。(扫描相应二维码联系获取)


官方微信


业务咨询