数字图书馆及文档信息化处理技术
一、概述数字图书馆是不需要阅览室的图书馆。只要有网络,任何人都可以随时随地查阅和获取信息。
数字图书馆系统是现代计算机和网络技术与传统图书馆信息检索技术的结合。传统的图书馆管理面临着技术和设备落后的局面,但长期以来为海量数据的管理积累了丰富的信息检索经验。数字革命和互联网的巨大发展带来了经济、贸易和信息传播的全球化,深刻影响了社会的各个方面。大量的信息涌入互联网,使得信息极其丰富,并且很难查询和检索信息,特别是对于新手来说。这主要是因为互联网上的信息资源在很大程度上处于混乱的无*状态,这极大地影响了信息利用的效率。这一重大弊端清楚地表明,在互联网这样的全球信息服务网络中,迫切需要一种新的信息资源管理模式,所有在线资源都必须按照这种模式进行管理。这是提出数字图书馆的主要背景。数字图书馆是以现代高新技术为支撑的数字信息资源系统。它是下一代互联网信息资源的管理模式。它将从根本上改变互联网上信息分散、使用不便的现状。数字图书馆的建设以统一的标准和规范为基础,以各种数字信息为底层,以分布式海量资源库为支撑,以智能检索技术为手段,以电子商务为管理模式,以宽带高速网络为传输渠道,向千家万户传递丰富多彩的多媒体信息。它涉及数字信息资源的生产、加工、存储、检索、传输、保护、利用、归档和淘汰的全过程。这不是单个库可以完成的任务。这需要全国各地的图书馆、博物馆、美术馆、档案馆和信息提供商通力合作。在数字图书馆的概念出现之前,人们从电子图书馆、无围墙图书馆和数字图书馆等不同角度探讨了图书馆的未来发展。电子图书馆主要是指以电子形式(媒体)存储、传递和提供服务的图书馆,如各图书馆建立的电子阅览室和OPAC搜索。它强调个别图书馆通过计算机技术在一定范围内提供读者服务。无围墙图书馆是指读者通过网络通信系统检索多个图书馆的数字馆藏,强调用户获取信息的普遍性和网络传播的重要性。然而,数字图书馆主要关注馆藏的数字化,并在网上提供数字化的书刊供读者使用。可以看出,电子图书馆主要侧重于单个图书馆的电子检索,无围墙图书馆主要侧重于通过网络检索多个图书馆的馆藏,而数字图书馆则侧重于馆藏的数字化。电子图书馆、虚拟图书馆和数字图书馆的建设难度和便利性远不及数字图书馆,但它们是数字图书馆的基础,是数字图书馆建设的必要准备工作。随着互联网时代的快速发展,现代网络计算在信息数字化技术、多媒体技术、信息存储与安全、网络发布与搜索技术等方面越来越成熟。然而,海量信息的管理暴露出许多问题。如何将二者有机结合是数字图书馆系统设计的关键。建设数字图书馆的意义1。传统的纸张作为信息媒介存在着巨大的资源浪费。以书籍为例,大量有用和无用的信息必须被打印成数千份,经过储存、运输、批发、销售和其他昂贵的环节后发送给读者。那么这些书,不管买不买,无非是两种结果。它们被搁置起来,直到发霉腐烂,或者被人力和物力资源破坏。这样,一方面,社会资源和自然资源被严重浪费;另一方面,信息不能永久保存,更不用说成倍增长了。随着人类社会的发展和信息的膨胀,传统纸质媒体的信息移植成本越来越高。下图显示了传统信息传播方法与互联网时代信息传播方法的比较。
传统信息流
互联网时代
数字图书馆的建设具有以下社会和经济意义:知识经济的基础建设;驱动相关信息资源;全球文化和技术竞争的焦点;可观的效益前景--信息增值和知识创新。2.数字图书馆对国家的战略意义已经成为国际高技术竞争的新制高点和一个国家信息基础设施建设的重要标志。与数字图书馆相关的工程项目层出不穷,各国对数字图书馆建设的投资逐年增加。自20世纪90年代初以来,美国将数字图书馆作为一个具有发展潜力的新的重要研究领域,并将数字图书馆研究纳入克林顿*倡导的国家信息基础设施计划(NII)。从1994年到1998年,美国共投入7800万美元,动员国防部、美国航天局、联邦调查局、国会图书馆、国家科学基金会和人文基金会等关键部门加入数十所大学和研究机构,大力研究和推动数字图书馆项目。预计在未来几年里,这项工程将耗资数亿美元。美国实施数字图书馆计划的主要目的是促进各种信息在美国社会的有效传播,为美国公民的终身学习提供保障,使美国成为知识生产和信息传播的国际霸主,并尽快利用互联网占领信息资源的战略制高点。这一做法引起了国际社会的极大关注。英国、法国、日本、德国、意大利等西方发达国家和新加坡、韩国等亚洲国家纷纷效仿。虽然我国起步较晚,但我们在基础研究和开发方面并没有落后。与技术研发相比,我国数字图书馆的推广存在许多非技术难题。目前,最大的问题是社会各界对数字图书馆的意义认识不够,相关部门(尤其是核心部门)的参与度不高,资金投入不够。在网络时代的信息竞争中,拥有它就意味着拥有一个中国的位置。失去它可能意味着失去整个中国世界。◆文件信息系统的特点一个实用的文件信息系统有以下特点:它本身是一个集成了最新技术的商业实现;自动化处理过程,解决大量书籍的数字化问题。实现安全控制和版权保护;基于互联网的商业模式;良好的开放性和与现有系统的集成。文献信息系统有三个要素:1 .数字资源大量数字资源是数字图书馆的“物质”基础。数字图书馆的目的是直接提供读者所需的最终信息,不仅是二级文献(获取文献线索),而且数字图书馆不排除二级文献,如书目数据、索引摘要等,因此它们也是数字图书馆的组成部分。在数字图书馆里,成千上万的世界被统一成0和1。书籍、期刊、录音带和录像带,甚至罕见的古籍、罕见的书法和绘画,甚至x光片,都已经从它们最初的物理形态中消失了。只要它们具有相同的属性,就可以同时获得。因此,多媒体也是数字图书馆的一个基本特征。2.网络接入高速数字通信网络是数字图书馆存在的基础。数字图书馆依赖网络而存在。他们的内部业务组织和外部服务都是基于网络的,这得益于网络也受到网络的限制。只有充分利用网络,才能充分发挥数字图书馆的作用。数字图书馆本身由一个局域网(LAN)组成,局域网通常用高速主干连接几个服务器和工作站。外部通过几个广域网服务器面向广阔的互联网。今天是互联网,明天可能是互联网2。3.分布式管理分布式管理是数字图书馆发展的高级阶段。这意味着在全球数字图书馆遵循统一的访问协议后,数字图书馆可以实现“联邦检索”。全球数字图书馆将把全球数字资源整合成一个整体,成为一个庞大的图书馆,就像现在的互联网连接网站一样。分布式管理之所以成为数字图书馆的基本要素,是因为它强调标准协议的重要性。只有全世界都遵循TCP/IP协议,才能有互联网。数字图书馆技术还没有这样一个公认的标准协议。因此,选择和参与技术标准的制定对每一个数字图书馆的先驱都至关重要。◆典型信息系统1。文档处理系统由三部分组成:信息处理、本地阅读、互联网电子商务平台
2.系统特点:适应中国国情-图像技术形式:图像/文字特点:简单、复杂、多码象形文字格式保持原件的法律效力
◆图像压缩和处理方法通用图像压缩:CCITT G4和JPEG;黑白二值图像的压缩:JBIG和JBIG2进一步的压缩技术:小波变换;新的图像压缩标准:JPEG2000;图像优化技术:净化、去噪、校正等。视频动态压缩:MPEG,MPEG2,MPEG4,MPEG7,H.261;音频动态压缩:MP3。◆信息深度处理过程:识别和检索处理系统:对各种非数字化对象进行数字化处理,同时对数据对象进行索引和标记处理;查询检索系统:通过基于SGML的搜索引擎,实现元数据检索和全文内容检索。
1.文档信息处理流程
在向基于互联网的信息传输过渡的过程中,传统纸质媒体信息的数字化是一项艰巨的任务,涉及扫描、压缩和加密等一系列技术难题。2.信息输入:高速图像扫描自动连续进纸扫描速度(30-180页/分钟保持原始效果图像去噪处理)◆图书格式图书文件的格式是一种以PDF格式组织的图像文件,因此可以利用PDF和Acrobat Reader的优势。
支持排版格式、支持对象定义、支持图书出版控制、支持安全加密在线浏览、优化图文混合排列◆图书阅读平台不仅提供图书展示,还应能集成上述技术。选择PDF的原因是Acrobat Reader具有以下特点:支持图形和多媒体对象,支持全文检索,支持页面和目录等管理,支持各种操作和控制,以及集成各种技术
系统结构的开放性1)与现有系统的连接在线编目系统查询和检索系统业务管理系统2)嵌入各种技术的OCR识别模块数字水印功能盖章3)嵌入第三方功能数字文档的安全控制为了保护出版物的版权,每个用户下载的书籍应结合最新的认证和加密技术进行不同的加密。
信息安全:
认证电子签名(水印)访问权限加密操作权限控制:读取、修改、打印和下载数字文档的版权保护:加密和绑定该系统解决了数据对象的流通、传播和增值以及安全和版权保护问题。
◆系统应用1。文献信息系统构成了未来图书的业务和服务模式
2.文献信息系统可以为图书网站+多家出版社的联合/联盟=电子书销售中心3建立电子商务平台。数字图书处理、销售和图书网站建设的综合解决方案
◆文件信息系统在办公自动化中的应用○*:公文、文件、档案、资料○工商:企业档案、申报资料、检查记录○税务:企业情况、税务登记、发票○银行:企业及个人文件、印章、支票、文件○司法:企业原始资料、档案、证言、案例○文物:字画、真迹、图片、出版物:书籍、手稿○企业:文件○提供的服务模式
◆市场预测这是一个保守的估计,基于中国互联网络信息中心1999年的调查:1999年6月30日,中国有400万互联网用户,1999年12月30日,有890万互联网用户。半年增长率为100%。假设年增长率为100%,1/4的用户在网上阅读书籍,1/8的用户在网上购买电子书,得出如下图表。
推荐阅读