国内有关数字出版现状与趋势的分析
国内数字出版现状与趋势背景《中华人民共和国国民经济和社会发展第十一个五年规划纲要》提出了“发展现代出版发行业,积极发展数字出版,重视网络媒体建设”的要求,引起出版界对数字出版的高度重视,有些出版社已采取积极行动,进行落实。目前是加快数字出版的大好时机。
数字出版的一般概念
出版业是人类进行信息交流的重要工具,当文字、图片、声音、图像都可以应用计算机进行处理,数字化浪潮扑面而来之时,出版业首当其冲,就是很自然的事情。信息技术高度发达,信息资源呈爆炸性增长,数字化信息资源成为信息交流的重要内容,信息经济在国民经济中占有较大比重,是一个国家进入信息社会的标志。其他部门的信息化建设,只是其产品的元数据数字化,产品本身的物理性质并不改变,仍然是原子形态;而出版业不仅其产品的元数据数字化,产品自身也数字化,成为比特了。因此,出版业在一个国家的信息化进程中有着极其重要的作用,故所有发达国家无不重视对出版业的信息技术改造,或斥以巨资,或从政策上加以扶持。出版业对数字技术的广泛应用,推动了IT技术的发展,促进了图书馆的变化,改变了人们的生活习惯,影响了社会的生存方式。
数字出版的发生与进展
数字化催生eBook。当文字、图片、声音、图像都可以应用计算机进行处理时,eBook就应运而生了。Ebook大致有三个范畴的概念:
其一是指专门用于阅读数字信息的硬件设备。这种电子书仿佛脱胎自科幻电影中的阅读器,如同一本普通小说书大小,但它们不同于多 媒体光碟电子书,用户需付费从网络下载阅读,或者先浏览后下载。
其二是作为制作电子出版物而开发的软件工具,目前有三种方式:一是将印刷版进行扫描;一是专门制作电子书;一是利用印刷版的电子文本加以改造,这种方式又有印后操作与印前操作的区分。
其三是不同于印刷版需通过计算机设备阅读的出版物。原先叫电子出版物,又叫全文数据库,现在叫电子书(Ebook)。科技情报界叫做电子信息资源,图书馆界称之为数字信息资源,有些IT企业还名之为数字图书或数字图书馆。
Ebook有三种介质形态
载体版(软盘、光盘、磁卡等);单机/局域网版(仅在一单位内部使用);网络版(在因特网上供所有人使用)。
Ebook有七种出版方式
一种出版物具有印刷版、载体版与网络版三种形式。一种出版物具有印刷版与载体版两种形式。一种出版物具有印刷版与网络版两种形式,有的是先有印刷版,后上网流通;有的是先有网络版,后出印刷版。一种出版物具有载体版与网络版两种形式,没有印刷版。一种出版物只有载体版。一种出版物只有网络版,一种出版物只有单机/局域网形式,这是一些部门自编自用的数字信息资源,这是目前我国数字信息资源中数量相当多的一部分资源。
Ebook有四种类型
一般读物新闻信息 网络游戏 数据库
数字与非数字出版物的比较
内容比较
数字版 非数字版
易于检索 检索不便
活的图书 固定形态
实时互动 难以互动
便利重组 重组不易
制作方便 制作困难
利用依赖设备 利用不依赖设备
阅读不太习惯 阅读适合习惯
技术比较
两种出版技术在文字输入上是一致的,显示方式也是相同的,只是传统出版技术重在向照排系统发出组版指令,制版印刷,强调字体清晰,印刷精美;而数字出版技术旨在建立结构化数据库,检索点丰富,便于查询。因而计算机应用的早期,一直有两种文字处理系统,一种是排版印刷软件,其处理对象为线性文件;一种是数据库软件,其处理对象是结构性文件。两者相互不能转换。
机读目录是很早的“复合文件”,其印刷文本与检索结果的显示内容是完全一致的。其原因是由于目录卡片字号字体单一,项目固定,直接从数据库生成打印输出的文本文件。到文摘刊物实施“刊库合一”,就有印刷版中有字号字体的要求。但在批处理式排版软件中,利用其注解语句的特点,加上文摘项目固定,每一项目的字号字体、项目之间的次序位置和文摘的总体形式也固定,就可在数据库文件生成打印输出的文本文件时,对每一项目预先进行字号字体定义,达到印刷版的要求。早在1988年研制的“工具书排版与造库系统”,与方正排版软件结合使用,实现了“刊库合一”。不足之处是检索结果的显示格式与印刷格式不一,不能表示字号字体。但说明同一数据内容既可用于排版印刷,又可用于建库检索。
全文数据库(电子出版物)又有两种文本的关系。即检索结果显示格式与排版印刷格式不一致。从而有了美国康奈尔大学等合作的CORE项目。其做法是“每篇文章有两种版本:扫描的图像和用SGML标记的文字版本。扫描的图像能够保证每页打印和显示,使用与原始印刷材料相同的图案和布局;SGML正文则往往用于建立全文索引,以便信息检索和在屏幕上的快速显示。每一页有两幅扫描的图像:一幅为了打印,另一幅用于屏幕显示”。后来一些全文处理软件,直接利用排版软件产生的电子文本,加工成计算机可读的电子书,这就说明排版文件是可以同时用于制作电子书的,只是其加工过程不是在排版文本产生之后,而是在排版过程之中。
出版数字化的意义
1、数字信息资源建设的源头
信息资源建设包含数据、信息和知识的创作、分发、使用、保存的各个环节,出版业是其中的源头,处于信息交流系统的上游。在信息资源建设中,需要充分发挥其有利地位。
2、数字资产系统的主权机构
数字资产在出版社的整个资产中占有很重要的地位。随着数字出版技术的不断提高,社会对数字资源的利用更加普遍,建立数字资产管理系统,数字信息可以方便应用,按需印刷就有可能实现。建立良好的数字资产管理系统,可为全社会提供服务,既方便信息服务机构的利用,又使信息技术附加值愈来愈大,在出版经营中的作用也愈来愈显著,其收益在出版社全部收益中所占比重将愈来愈高。这些数字资产,只有出版业对其拥有权益,利用这些数字资产进行二次开发的IT 企业和信息服务机构都不具有数字资产所有者的地位。
3、数字信息服务的重要环节
出版业是科学交流体系的源头,是信息生命周期的母体,是文献信息系统的上游。无论是元数据信息(书目、索引、文摘),还是对象数据信息(电子出版物),都要由出版机构生产。出版机构不做好这些事情,就会造成全社会的浪费,以及某些方面的混乱。
4、创新信息的组织基地
虽然网络文化在传播知识信息上发挥了重要作用,但其信息来源仍是以图书报刊发表的信息为主,网站独自组织的信息源很少。正式的科学交流形式,并未改变,新的学术思想,还是通过学术论文与专著向社会发布,进行创新信息组织工作的,仍然是出版行业,国内外均是如此。
5、市场管理的有效工具
建立电子底账+联网核查制度,是利用高科技手段加强出版物市场管理的基本做法。但只有出版业广泛采用数字出版技术,才可以提供准确的出版物电子底账,并且将元数据与对象数据进行统一管理,联网核查制度才有运行的基础。
6、信息经济增长的亮点
出版业在信息经济中所占份额愈来愈大,出版业是信息内容产业的主要组成部分,数字化是出版业自身发展的基础条件,是带动信息内容产业其他部门的原动力
7、新技术开发的关键
目前,美国在数字技术上处于领先地位。我国对数字技术的研究与应用,现阶段许多关键技术在于处理中文信息的特殊性上。如何解决中文文献的复合出版、自动标识、自动分类、智能检索,只有在中文文献出版过程中,才能实现。这是我国数字技术研究与应用中,迫切需要解决的课题,也是技术开发部门的关键所在。离开了出版业,就无从着手。
8、综合国力的象征
历史说明:哪个国家在信息技术上处于领先地位,反映了这个国家在科学,教育,文化,经济等各方面处于领先地位;而信息技术领先的标志是其出版业的水平。农业时代的中国,工业时代的欧洲,信息时代的美国,都是例证。
两种出版物将长期共存
虽然eBook的数字化程度较高,但用户对印刷版与数字版的不同需求是并存的。直到目前,用户在阅读上,还是以印刷版为主(有关调查统计说明,在70% 以上)。许多正式的信息交流行为,也是以印刷形式表现(如法律文件、商业合同等)。只是在信息检索时以数字版为主,这是由两者不同特点决定的。何况我国网民虽已有1亿多人,但绝大多数人还不掌握数字技术,对印刷版的需求仍是我国人的基本部分,因而双轨出版与复合管理技术,是社会的长期需求。
对于数字出版技术的应用,需兼顾两种出版形式长期共存的现实,依据社会的不同需求,采取实用的出版方式,而不是一味追求数字化。读者需要什么,就提供什么。但要注意应用数字技术改进与提高印刷版的处理效率与内容质量。
复合出版是当前的关键技术
出版社掌握数字出版自主权的需要,现有的数字复制技术,出版社很少有自主权;应用复合出版技术,才能在印前提供数字版,实施数字资产管理;复合出版可充分发挥数字版的优越性,改变数字版只是印刷版“克隆”的现状;复合出版是传统出版向数字出版演变的必由之路,也是利用数字技术推进印刷版市场的有力工具。
国外数字出版发展情况
美国早在20世纪60年代就投资1000多万美元对一系列基础学科的二次文献进行信息技术开发,如CA(化学文摘)、BA(生物文献)EI(工程索引)MEDLARS(医学索引)等文摘期刊,在20世纪60年代中期先后建成机器可读的二次文献数据库,并建成联机情报检索系统为美国及全世界提供服务,这些是世界上很早的电子出版物,也是很早的双轨出版机制。目前美国这类出版物占世界同类产品拥有量的67%。同时国会图书馆研制成MARC机读目录,并产生OCLC联机编目系统。20世纪80年代又支持出版商先是以软盘,后是用光盘出版一次文献的电子出版物(即全文数据库),其出版量占世界该类出版物总量的三分之二。20世纪90年代通过各种政策鼓励大批学术期刊和重要的报纸建立双轨出版体制,将印刷版报刊数字化进入网络,并开发其他网络数据资源。当美国政府提出“信息高速公路”计划时,他们已经拥有相当丰富的数字化信息资源,进而实施“数字图书馆”研制计划,将载体型电子出版物和因特网上数字信息资源整合重组,并将一些已经绝版的历史资料转换为数字化资源,为美国及全世界的用户提供数字化检索服务,从而占据因特网上数字信息资源的绝对优势。美国出版业的发展,生产的数字化产品及其增加的信息技术附加值,不仅在美国进入信息化社会的过程中做出了贡献,也为美国在全球信息资源,也就是信息经济上居于垄断地位发挥了重要作用。
虽然应用计算机进行排版已有几十年历史,但所产生的排版文件为线性结构,没有数字版所需要的属性标识,文件中还有各种排版符号,因而不能直接在计算机上进行浏览。20世纪80年代,美国卡内基"梅隆大学的“Mercury数字图书馆计划”和康奈尔大学的“CORE计划”两个项目对学术期刊进行数字化处理试验。这两个项目都联合期刊出版商,共同扫描已出版的印刷版期刊,并建立联网的图像馆藏库。
其中CORE项目创造了几个新做法,这些做法从此在数字转换项目中颇为流行。每篇文章有两种版本:扫描的图像和用SGML标记的文字版本。扫描的图像能够保证每页打印和显示,使用与原始印刷版相同的图案和布局;SGML正文则往往用于建立全文索引,以便检索和在屏幕上快速显示。
直到20世纪90年代中期,美国的出版商仍然对制作数字版的问题踌躇不定,他们担心如果信息可在网上访问,那么同样内容的印刷版的销售将受到影响。在数字化试验过程中,人们发现数字版与印刷版式并不是直接等价的,它们各有长处。数字版可以提供手工系统无法比拟的强大的检索功能。印刷版的“人性化因素”是它的长处:便于注释,便于阅读,能展开在桌面上或拿在手里,不需要任何特殊设备来读它。
正因为数字版与印刷品服务于不同的目的,一些出版商就为一种出版物同时制作数字版与印刷版,20世纪末产生了双轨出版软件。利用XML标记语言来处理电子文件,利用不同的处理软件,一个用结构标记描述的电子文件便能按不同的方式表现:它既可在屏幕上显示,也可用于印刷。布局和图形设计可以不同,但使用的是同一文件,并且表达同样的内容。