TDM系统中数据导入功能的设计和实现
摘要:tdm系统的数据导入功能需要采用三层结构以适应保密需求;数据导入性能是关键指标,而oracle数据库系统的外部表特性可以大大提高数据导入性能。
关键词:试验数据管理;tdm;数据导入;etl
1 背景
进入到21世纪以来,我国的tdm(试验数据管理)技术领域展现出蓬勃的生机,越来越多的行业和单位开始关注该技术和相关的解决方案,如航空、航天、兵器、船舶、汽车等。tdm系统正在成为企业提高试验管理水平、缩短科研周期、降低科研经费的重要手段。
作为一个综合数字化管理平台,tdm系统涉及很多复杂的功能和技术,而数据导入功能就是其中之一。
试验数据导入功能就是从各种格式的海量试验数据文件中快速提取目标数据、再转换清洗后装载到数据库中。
目前试验数据管理的需求状况决定了数据导入功能的重要性。
(1)试验数据格式多变
目前国际和国内的试验数据采集设备多种多样,并且还没有形成统一的标准,而且许多客户单位也大量采用非标设备,于是采集的试验数据格式也就多种多样。这对tdm系统的导入功能带来了很多的挑战。
(2)试验数据量很大
试验作为产品研发生命周期的重要工作,其地位日渐增强,试验产生的数据量也呈几何数量级增长。tdm系统的导入性能也就成为一个关键指标。
2 数据导入功能特点
同许多etl工具一样,tdm系统的导入功能包括extract(抽取)、transfer(转换)、clean(清洗)和load(装载)等几个步骤。wWW.11665.COM
但是,试验数据管理的特殊需求决定了它又具有自身的特点。除了前面提到的数据格式多样、数据量大之外,单位保密要求对于产品架构设计产生了很大的影响。
许多单位,尤其是国防单位,都有严格的保密制度。在信息化系统的部署方面,普通用户计算机一般是不允许直接访问数据库的,只有指定的服务器才有权限直接访问数据库。这就决定了传统的c/s两层结构不能适应客户需求,b/s三层结构则成为必须的选择。
3 三层结构解决方案
我们把系统分为三层结构:用户层、应用层和数据层,如图1所示。其中用户层为数据导入客户端工具;应用层为基于j2ee平台的应用服务器和ftp服务器,j2ee服务器提供web service,包括web service和java beans等j2ee组件;ftp服务器提供对上传文件的管理功能,并提供多线程的文件上载到数据层的功能。数据层包括数据库服务器,其中数据库服务器中包含系统的元数据库、业务数据库和相关的后台进程。
在用户层中,数据导入工具通过web service接口与系统应用层提供的web service进行交互,建立相应的映射规则,同时数据导入工具对用户导入的非结构化数据文件进行抽取和转换,解析成格式化、结构化的文本文件,并把导入的数据规则及映射关系等信息保存下来,然后通过ftp把转化后的文件上传到应用层,同时通过web service接口把数据校验及关联映射信息传到应用层。
在系统应用层中,web service根据用户层的请求信息在内部调用相应的java bean组件,java bean组件通过访问数据库服务器,对数据库服务器中的元数据库、后台进程和业务数据库进行操作。在三层结构的数据导入工具中采用应用层主要是为了保证系统的灵活性和数据的安全性,用户层不能直接访问数据库,用户层对数据的操作都要通过应用层才能访问到数据层。应用层提供ftp服务器的功能主要是为了提高数据文件上传的速度,也可以采用socket编程的方式实现文件的上传,同时ftp服务器提供文件下载功能,当客户端的数据文件上传完成后可以系统自动把相应的文件下载到数据层的数据库服务器上。
在数据层中,元数据库、业务数据库和后台进程通过应用层java bean组件被访问,当应用层的数据文件接收成功后,通过oracle数据库的特性,采用建立外部表的方式对数据文件进行“导入”,然后对导入外部表的数据进行校验和处理,并返回数据导入的提示信息通过应用层到数据导入工具,然后再把外部表中的数据导入到实际表中。
4 数据库技术提升导入性能
为了提高数据导入的性能,我们考虑数据导入方案采用先导入临时表然后进行校验、最后再导入到真实表的方式.因为临时表中无索引、数据量少,因此能显著提高数据导入速度和性能。数据导入临时表后,通过数据库的功能实现对临时表中的数据进行校验和清除,同时产生数据导入日志信息,先导入后校验的方式可以进一步提高数据导入的速度。数据导入的最后一步才是把临时表中的数据导入到真实表中,为了提高性能,可以在晚间数据库访问少的时候系统自动实现数据从临时表导入到真实表,同时清空临时表中数据。
结合oracle数据库系统提供的特性,可以利用建立外部表的方法来实现临时表的功能,oracle数据库可以把一个普通的文本格式文件看作是oracle数据库的外部表,外部表可以像普通表一样进行select操作,可以建视图,可以与其他进行连接等,但不能对其进行dml操作,即该表是只读的。
外部表为oracle用户提供了巨大的好处。通过使用外部表,warehouse builder开发人员不再需要创建平面文件临时表。这样,外部表就减少了加载平面文件数据的处理时间,而且需要的额外存储空间也比平面文件临时表少。外部表可以与关系表和其他外部表连接,从而在平面文件和关系表之间实现了异类连接。此外由于消除了额外的步骤,因此pl/sql转换与sql加载程序转换相比更加灵活,从而在大多数情况下将获得巨大的性能提升。
5 结束语
tdm系统的导入功能是其核心功能之一,一些通用etl技术都适用于该功能。本文仅从试验数据管理需求的角度提出了数据导入技术的实现方法,并提到了数据导入性能提升技巧。tdm技术尚未成熟,其中的技术实现方式则有待于进一步探讨。
参考文献
[1]poole j, chang d, tolbert d, et al.公共仓库元模型开发指南[m].彭蓉,刘进,译.北京:机械工业出版社,2004.
[2]何晨钢.etl系统的设计和实现技术研究[j].计算机应用与软件,2009(4).
上一篇:大酒店导入CIS策划书
下一篇:体育教师团员评议范文