欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

中国搜索大数据一体机

科普小知识2022-10-03 11:44:57
...

中国搜索大数据一体机产品,目标为企业提供针对海量结构化和非结构化数据在可线性扩展的基础架构之上进行高效地存储、管理、分析、处理、应用的软硬件一体化解决方案。

1、产品定位

伴随着传统的商业智能系统向纵深应用的拓展,企业决策已经越来越依赖于数据而非直觉经验。然而,传统的数据仓库对于数据分析通常是建立在关系模型的基础之上,面向结构化数据处理,各分析主题之间的关系在系统内已经被创立,而且用以分析的数据也大都是企业自身信息系统中产生的运营数据,这些数据大都是标准化、结构化的。事实上,这些数据只占到了企业所能获取的数据中的15%。

对于企业而言,85%的数据属于广泛存在于社交网络、物联网、电子商务,多媒体传播以及业务文档等媒介的非结构化数据。这些数据往往在数据量和复杂度上要远大于结构化数据。我们所称的大数据分析,主要是针对这类的数据,大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,从而创造更大的价值。在大数据时代,企业进行数据分析的背景也发生了变化:一要涵盖海量数据规模;二要能真实精确地挖掘商业价值,快速分析响应;三要面向丰富多样的数据类型,包括结构化和非结构化的数据。这使得传统解决方案在新的需求面前束手无策。

中国搜索大数据一体机产品,正是定位在解决上述问题,为企业提供针对海量结构化和非结构化数据在可线性扩展的基础架构之上进行高效地存储、管理、分析、处理、应用的软硬件一体化解决方案。

2、产品应用范围

大数据一体机主要面向拥有海量数据的机构,或虽然不直接拥有海量数据,但需要多各种来源的海量数据做大规模处理和利用的机构。该产品热点应用行业对象有:互联网、传媒、电信、金融、医疗、制造、流通、*(*、统计、税务、气象)等等。典型的应用包括(不限于):


传媒行业:大型报业集团、报社、通讯社、电视台、电台等,每天产生、收集、整合多种来源的资讯信息,且往往是多种媒体类型的,对于这些多媒体信息的存储、管理、调用、分析、挖掘、搜索和利用,需要一个强大的底层IT支撑环境,且需要能够应对未来不断增长的数据量和管理、应用需求。这就要求具备强大数据处理能力以及高度可扩展能力的支撑平台,这正是中国搜索大数据一体机的用武之地。


金融机构:过去金融机构往往把IT设施投入在大量关系型数据的处理业务中,而在互联网时代,尤其是互联网金融业务蓬勃发展的时代,接入客户通过社交网络、电子商务、终端设备等媒介产生的非结构化数据,构建全面的客户视图的需求变得越来越迫切。此外,银行进行风险管理、产品营销、业务创新等活动,也都需要对交易数据以外的互联网数据进行整合,帮助银行了解客户的自然属性和行为属性,结合客户行为分析、客户信用度分析、客户风险分析以及客户的资产负债状况,建立完善的风险防范体系,同时寻找最优的模式支持商业决策。开展上述业务,需要大数据平台的支撑,用来对各种来源的数据进行存储、管理以及进行分布式计算等。


借助大数据分析平台,电子商务企业包括大型商业机构通过对形式多样的用户数据(用户消费数据、浏览记录、购买路径等)进行挖掘追踪、分析,将不同客户群体进行聚类,有助于获取用户的消费习惯、风险收益偏好等特征信息。从而根据不同客户特性打造个性化的产品营销服务方案,将最适合的产品服务推介给最需要的客户。典型如沃尔玛每小时处理超过100万笔客户交易,产生超过2.5PB的数据。


在智慧城市应用领域:每天城市运作将会产生大量来自不同渠道的数据,但是常常缺乏获取有用信息的能力,致使城市管理者无法进行实时的整理分析和下达相关的指令对各相关单位进行调动和指挥。例如,城市街道交通监管摄像头,每月产生的数据量高达几百PB,如何将产生的数据安全、高效的存储起来,对于管理部门来说是个严峻的考验。然而大数据一体机可以切合城市管理者的重点需求,进行数据智能化分析,能够及时准确的传递数据信息,为管理者提供及时、准确、全面的数据支持。


在城市安全、国家安全领域的工作中,*或其它职能机构往往每天需要收集大量的情报信息,来源于互联网、各类服务机构、通讯机构、*机构等,这些信息也是多种媒体格式的(文本、图像、音频、视频),每日可达数亿条,总容量达到PB级别,这对于数据的处理、管理和搜索能力提出了极大的挑战,传统的IT架构很难有效处理此类场景,而大数据平台是最佳的解决方案,且,大数据一体机的标准化可线性扩展架构,可以满足类似客户不断增长的数据和服务要求,大大简化IT架构的要求以及运行维护的成本。

3、产品功能

功能

说明

分布式并行计算

提供基于Hadoop实现MapReduce计算模型的分布式并行编程框架,程序员基于它写出来的应用程序能够运行在由上千个大数据一体机组成的大型集群上,并以一种可靠容错的方式并行处理PB级别(及以上)的数据集。

分布式文件系统

HDFS作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(HBase)的底层分布式文件系统。HDFS采用master/slave架构,从架构上消除了单点故障,数据恢复时间等问题。

TFS是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,TFS为用户提供海量小文件存储,通常文件大小不超过1M。封装实现了基于内容的去重和关系删除服务模块,支持多个不同业务的TFS服务数据内容共享。支持图片多样化的压缩裁剪功能。TFS支持对集群的扩容,此外可以配置主辅集群,主集群提供所有功能,辅集群只提供读,实现集群容错和负载均衡。

分布式数据库

基于Hadoop框架下的HBase提供一个高可靠性、高性能、面向列、可伸缩的分布式数据库系统,利用HBase技术可在大数据一体机设备上搭建起大规模结构化存储集群。HBase利用MapReduce来处理HBase中的海量数据。

数据仓库工具

提供基于Hadoop数据仓库系统:Hive,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

key-value数据库

Redis,支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。与其他非关系型数据库主要不同在于:Redis中值的类型不仅限于字符串,还支持不同无序、有序的列表,无序、有序的集合间的交集、并集等高级服务器端原子操作。

LevelDb,能够处理十亿级别规模Key-Value型数据持久性存储的C++程序库。LevelDb是一个持久化存储的KV系统,和Redis这种内存型的KV系统不同,LevelDb不会像Redis使用大量内存,而是将大部分数据存储到磁盘上。

分布式对象缓存系统

Memcached是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。

分布式服务协调系统

Zookeeper分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。Zookeeper不仅可以单机提供服务,同时也支持多机组成集群来提供服务。

关系数据库(集群)

根据应用需要,搭建MySQL、Oracle等关系型数据库(集群)环境,实现对海量关系型数据的存储服务。

集群监控系统

Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统。可以监视和显示集群中的节点的各种状态信息,比如如:cpu、mem、硬盘利用率,I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过WEB页面呈现。

分布式对象存储系统

OpenStackSwift作为稳定和高可用的开源对象存储被很多企业作为商业化部署,用于永久类型的静态数据的长期存储,这些数据可以检索、调整,必要时进行更新。最适合存储的数据类型的例子是云盘、虚拟机镜像、图片存储、邮件存储和存档备份。

4、产品特点优势


融合化的解决方案:在一台设备中整合了当今先进的各种大数据处理系统和工具,可以借此构建对海量关系型、非关系型以及对象型数据的分布式存储、管理、调度、监控等服务,为用户提供All-In-One的解决方案。


高可用性、自动化部署、线性扩容、易于维护,以及开放应用等多种功能及特性,大大降低用户的总体拥有成本,缩短部署周期。


最小集群仅须3个一体机节点(1个MasterNode+2个WorkerNode)就可以满足用户大数据处理任务的需求,在保证用户业务连续性的同时,还可以不断增加WorkerNode节点设备实现集群架构扩容,实现对PB、EB级别数据的处理。


无共享式架构,配合复制(replication)策略,大数据一体机集群可以具有良好的容错性,一部分节点的down机对集群的正常工作不会造成影响。


与中国搜索信息采集一体机、搜索引擎一体机可无缝配合,实现从数据获取到数据管理到数据搜索挖掘利用的完整大数据处理链条。且在必要时,可将搜索一体机与大数据一体机的角色混合,在同一台设备上进行配置实现。

5、产品配置和性能

中国搜索大数据一体机产品包含了软件和硬件,以及两年的服务,打包模式购买,免去用户单独采购软件和硬件,并需要集成实施的额外成本。目前提供配置型号:

★型号:CS-BDM-1001

该型号的大数据一体机是2U机架式设备。配置为:

CPU:英特尔®至强®E5-2620V2,2颗6核心主频2.1GHz;

内存:128GB;

硬盘:SATA3.5寸7200转(raid5)共12TB;

Raid卡:2108卡(512M);

网卡:集成双千兆网卡*1;

远程管理卡;双电源。

多个“CS-BDM-1001”大数据一体机可以连接在一起,构成分布式存储、计算集群,“CS-DAM-1001”支持内置冗余和故障切换,提供海量的容量和可靠性。集群处理性能:

平台并行计算能力,最高可支持上万个并发计算任务;

以数据排序处理为例,集群平台可在10分钟以内完成1TB数据排序;

平台数据存储能力,可支持存储PB级别数据;

平台资源利用率,内存使用率在85%以上。