■虚拟国际规范文档
(美)Barbara B. Tillett 撰 谢琴芳 王 静 译
规范控制是帮助用户查找信息的一个关键因素。在书目记录和规范记录中提供受控检索点,能够提高查全率、查准率。
虚拟国际规范文档这一概念自上世纪七十年代在IFLA范围内部已经开始讨论,最初的想法是将其建成唯一的一个共享文档,而近期又在连接国家的或地区的规范文档方面进行了思考,在IFLA范围内虚拟规范国际文档确定为如下目标:
--促进共享,减少工作量,降低编目成本。我们的群体在不断的扩展,尤其在欧洲,那里的图书馆和档案馆、博物馆和版权管理机构一样,都被视为“储存机构”,我们希望规范文档能够随意地在所有的群体中共享。共享规范信息不仅能够控制检索,提高检索精度,还能降低全球规范工作的成本。
--使国际间创建和维护规范记录简单化;
--使用户可以采用他们习惯的、或者当地图书馆提供的语言、文字和形式检索相关信息。
有关虚拟规范控制的好处或优点数十年来一直在不断地争论和不断地重申。当我们应用规范控制时,我们会被提醒规范控制是如何给我们带来精确的检索,参照的连接结构是如何进行导航,针对相关的变化和矛盾是如何进行解释说明的,名称、题名和主题的规范形式如何帮助排序,我们如何能够连接到在目录、书目、摘要、索引等不同工具中使用的这些名称、题名和主题的规范形式。我们能利用这种连接能力将图书馆目录融入到互联网上的多种工具中去。控制的形式为使用者提供一致性的检索和显示。
在高科技层出不穷今天,虚拟国际规范文档的实现已为时不远了。之所以称之为“虚拟”是因为这并非是一个客观存在的文档,而是一个对现有的各个规范文档进行连接的系统。
我们在审视IFLA统一书目控制(UBC,Universal Bibliographic Control)时,也需要采用历史发展变化的观念。IFLA统一书目控制的规范控制原则与书目控制是类似的,即:
--每个国家负责本国的个人和团体著者的规范标目
--由每个国家书目机构创建的规范记录可以被所有其它需要创建相同著者的规范记录的国家利用,甚至同一个标目会被全世界应用。
在上个世纪的六十年代和七十年代开始流行这一原则时,当时的技术还无法在实践中完全实现国际范围内的共享,加之管理该计划的国际中心缺少资金,使得虚拟国际规范文档这一愿景理念未能付诸实施。至于相同的规范形式为全世界所接受,是由于当时IFLA的研究开发者主要来自北美和欧洲,显然是忽略了规范形式采用多种文字的必要性。
在前几年中,IFLA UBC的几个工作组形成了一种新的观念,这种新观点加强了规范控制的重要性,更注重了用户第一的思想。这种观念更符合规范的实际应用,因为中国的用户并不希望看到拉丁化的标目“Confucius”(孔子),而是愿意看到采用本国文字的形式。同样,俄罗斯或乌克兰的用户也是希望见到采用他们本国的文字或语言的形式。
共享规范工作和创建的书目记录能为全世界范围所用,我们能够通过国家书目机构和其它区域性机构的规范文档连接规范化的名称、题名、甚至主题形式,建立一个虚拟的国际规范文档。以下提供几种虚拟国际规范文档如何工作的模式,我们需要做更多的原型实验计划,用以测试哪一种更好并可以继续跟踪下去。
为了符合每个国家的图书馆用户的需求,应该采用用户能够读懂的文字。
这张幻灯片说明我们给予一个实体的名称可以用多种语言和文字表达。例如,我们可以用英语或德语的罗马字母书写,用俄语的斯拉夫文字,或者用日语的任意三种文字以及其它各种语言文字书写。
针对某些用户可采用音译法以方便领会记录的含义,但是使用原文字会更精确一些。
对采用不同文字的各种形式的相关标目我们至少必须提供参照,我们最终应该能够显示用户所期望的标目的文字和形式。
我相信IFLA范围内的许多编目员认识到了保留同一个实体的并列规范记录的价值。这样做既可以使我们反映各国用户对该国家和文化的要求,同时又允许我们建立参照的连接结构和为适合某种对象而制定的某种规则的目录标目的规范化形式,还允许我们在规范记录中包含交替文字的变异标目,而现在至少是一种相互参照。
我一直从事于国际性工作,很快就发现共享规范信息受到了挑战。
理想的状况是某一特定的实体在所有的规范文档中都是同一种确立的形式,但是我们知道,事实往往并非如此。不同的实体可能也会有同一种确立的形式。Winston
Churchill(邱吉尔)是知名的英国首相,但是一个十七世纪的英国贵族,一个很有成就的雕刻大师,甚至一种花草的名称都会有相同的命名。同样,不同的名称形式可能是是同一个实体。
还有一个著书时身份识别的概念,在于区分一个人或一组人在不同的环境下所扮演的不同的角色。通常是笔名与真名,也有职务名称、字等,例如,Yi Hwang (1) ,在写作时用笔名T’oegye,也用字Gyeongho。名称能用几种文字表达,包括采用不同罗马化标准的若干种音译形式。
当我们控制了一个实体的全部可能采用的名称的变异形式,并将其与由这些实体所创作、制作、收藏的那些书目资源的书目记录联系起来,我们需要向用户对这样的情况作出解释。例如,以Getty
Museum and Institute为例,假如用户选择了其中的一种形式开始检索,而检索结果集中得到的是包括与该检索形式相关的所有的变异形式,用户能够看到各种变异名称形式的记录,或许会感到奇怪。我在Getty系统用Lewis
Carroll检索,他是“Alice’s Adventures in Wonderland”(阿丽丝漫游仙境)的作者,为什么反馈给我的是一个数学家Charles Lutwidge Dodgson, 1832-1898? 的信息? 你需要告诉用户这是用于同一个个人、团体或者作品的变异形式。或者,识别每个角色、为每个有变异形式的实体确立一个名称并且用参见参照将这些形式关联起来,会更好一些。
当我们考虑连接时我们必须认识到在考虑实体名称时不同的目录规则会有不同的选择,例如德国的规则(Regeln für die alphabetische Katalogisierung-RAK)不认可航行日志可以在舰船的名称款目下,而AACR2却有这条规则,所以德国规则中无舰船的名称规则记录,类似的还有事件。作为团体名称会议,德国规则无需建立该实体的标目,而AACR2则将其作为该团体的下级标目。
在区分名称的方面也有不同的实践:德国最近改变了他们的规则,需要设法区分更多的名称,而过去在个人名称方面通常的做法是采用了不可区分的名的首字母缩写形式。英美编目规则也没有提出要求用完整的名字或者完全要求采用限制性名字作为区分。
即使是使用同一个规则,像AACR2,当我们有较多的可以区分一个个人的信息时,我们能够建立一条新的规范记录,将这个人从无法区分的名称形式中区分开来。这意味着,过去无法区分的名称反映了不相关的多个实体。
在过去的几年里,已经有一些计划帮助我们实现近乎全球范围内的规范控制。2000年11月的美国国会图书馆200周年庆典会上我的一篇论文就描述了这个计划,大家可以从这张幻灯片中看到:
*有几个由欧洲联盟发起的计划,其中之一是始于1995年的欧洲著者规范计划(European Project AUTHOR),5个参加国(比利时、西班牙、葡萄牙、英国和法国)按同一种UNIMARC通信格式已经转换成了一种规范记录的样本;LEAF计划(现在在柏林市图书馆)则是根据档案目的着眼于通过Z39.50协议和OAT协议将不同的规范文档连接在一起;<indecs>和NTERPARTY计划着眼于图书馆、博物馆、档案馆和版权管理机构之间的规范合作共享。
--在IFLA,MLAR最小级规范记录工作组确定了规范记录所需要的基本数据元素,我们现在称之为元数据。该工作由IFLA的规范号码/记录功能要求((Functional
Requirements for Authority Numbers,缩称FRANAR)工作组和主题规范记录功能要求(英文缩写FRSAR)工作组接续完成。
--在数字元数据界,有一个由柏林核心“代理”(Dublin Core “Agents”)工作组研究推荐的有关数字化环境下的规范信息。
--在过去的几年中的其它一起研究发展已经被接受的有微软工具中的统一字符编码标准Unicode,例如Windows视窗操作系统,它具有兼容全球多种文字字体的能力。
--还有将国际合作编目计划NACO和SACO的范围扩大到使用英美编目规则和LC主题标目的全球用户,也同样促进了全球范围的规范控制。
规范工作的成本是大家所关注的,而国际共享正是有助于降低成本的方案之一。另外一点是提高自动化系统的性能,使之能更好地支持编目员做规范工作,甚至某些方面能够具有自动的功能。一些本地系统已经给我们提供了计算机辅助机制,可以根据现有的规范文档自动校验标目,如果在本地没有发现有匹配的检索结果,我们可以将这一功能延伸到对虚拟国际规范文档的检索,而国际资源的共享有助于降低全球价格。
我们也可以设想一下编目员如果需要可以将虚拟文档的相关信息编辑或合并到本地规范记录的匹配显示功能。
现在有些系统向特定群体提供专门查询,从而实现联机检索时相应主题选择资源。还有一些系统诸如“我的图书馆”、“我的OPAC”等可以提供个性化信息检索。它们能够为受控词汇选择用户所偏好的语言和显示形式的规范。
我们希望图书馆所选的规范形式默认提供给大多数用户,我们也可以设想可以通过客户端软件或者cookies技术从而保留用户曾选择过的语言、文字或者文化形式提供给他们,比如对于拼写偏好,当文化是个变数时,我们可以选择美式英语或者英式英语。
还有许多方法可以应用,在以前的论文中已经介绍过若干种方法,让我们来关注以下发生的情况。
编目员在做原始编目发现在本地规范文档没有他所需要的那条标目。
编目员在书目记录中键入标目信息,本地系统检查本地规范系统没有发现有与之匹配的记录,系统会告许编目员没有发现标目,于是通过网络检索虚拟国际规范文档。
俄罗斯的圣彼得保国家图书馆创建的一条记录与之匹配。
我们的编目员看了一下,或者并不需要全部的信息只是想要其中的一两个参照并作个连接。本地系统就问编目员是否需要系统根据发现的那条记录建立一个基本级的规范记录并与之连接…,我们按“Yes”按钮。
本地系统将自动建立一个本地规范记录,抓取从虚拟规范文档的连接信息-来自俄罗斯圣彼得堡图书馆的记录,然后编目员追加MARC 100字段,依据本地使用的编目规则的规范形式,本例中是依据AACR2.,若有必要,编目员可以追加其他字段。
本地系统将追加700连接字段-MARC格式的规范记录中有7xx字段,用于连接规范形式、记录控制号和将来连接的资源信息。这种规范文档的连接主要用于国家或国家书目机构的区域规范文档-这取决于我们选择的模式。后面我还会提及此事。
所以我们现在在虚拟国际规范文档又追加了另一个遵循AACR2的规范形式的连接,注意LC的控制号是(LC) n79072979,同一实体的俄罗斯记录,遵循了俄罗斯编目规则,采用了西里尔文,来自俄罗斯国家图书馆的这条记录控制号为(NLR)10326。
然后我们的本地系统用规范记录的信息更新我们的本地书目记录。
当用户出现,本地系统或者用户系统上的Cookies,会为他们选择他们想看到的西里尔文并显示出来。
你们也可以设想显示任何一种字体或盲文键盘的输出,或者我们可以提供声音识别响应依据用户个性特征或者他们的cookie。
这不是一个虚拟国际规范文档的记录,而是美国国会图书馆规范记录的一个实例,具有Unicode特征,将原文文字作为图书馆目录的反见参照。该实例只是给你一个规范记录的概念而已。国会图书馆将实现基于Unicode版本的图书馆集成系统,我们希望约在一年左右能够实现。
在参照方面,除了将罗马字体排列在非罗马字体之前外,并没有其它特殊的排列顺序。该样例展示了英、德、意、中、日、韩、俄文以及音译包括韦氏拼音,还包括汉语拼音,因为国会馆已经开始启用汉语拼音了。
虚拟国际规范文档有几种模式。对于分布式模式检索者将使用一种标准协议,类似于下一代的Z39.50或者SRU/SRW(查询/获取网络服务协议)去检索有多个国家书目机构或地区性权威机构共同参与的相互独立的规范文档。
另一种是采用一个中心规范文档同时连接所有其它的规范文档的模式,这样不需要每个国家书目机构与其它所有参加者进行连接。编目员通过检索中心文档就可以检索到同一个实体在世界范围内的全部规范记录,如果在中心文档没有匹配,通过Z39.50就会进行对其它文档的检索。
第三种是集中式模式。我们会发现这种模式最适合记录维护。OAI(Open Archives Initiative)协议通过服务器从每个国家规范文档收割元数据。
只要国家规范文档的信息有变化,服务器信息随时都会更新。这就意味着如同现在国家书目机构(或地区规范文档)一样,要进行日复一日的记录维护。除非我们也建立连接,否则采用此模式就有可能在检索精度方面受到影响,但是也有方法将实体的连接包含在这种模式中。
如果我们采用集中式联合规范文档而不是将所有的记录储存在中央数据库的模式,我们改为用一个服务器创建一个系统,这个系统知道每个国家书目机构当前的规范文档,我们就可以有一个高效的虚拟国际规范文档。该文档本身是通过连接而存在,通过网络系统而互动。
我相信各位能够想象这些模式的各种变化情况,我们需要进行试验看哪种方式在今天的网络环境下更好。
目前正在进行中的一个计划用来测试不同的集中式虚拟规范文档模式。在2003年8月德国国家图书馆、美国国会图书馆和OCLC签署了一个联合参加测试虚拟国际规范文档(VIAF)概念的研究项目的备忘录,这是一个证实概念的计划。假如被证明成功,就可以作为真实的虚拟国际规范文档的基础,这个虚拟国际规范文档将连接全世界国家的和地区的规范文档作为可以自由获取的共享资源。该计划的第一步是连接现有的个人名称规范记录:LCNAF和DDB的个人名称规范文档(PND)。测试OCLC的匹配算法以了解在匹配和校验方面,计算机能够为我们做多少,有多少需要通过人工干预才能完成。OCLC研究办公室用书目记录中的信息(例如出版日期、主题、语种、出版国等)和规范记录中的信息(规范的和变异的名称形式)做匹配目的是为了增加匹配率,降低假匹配。
第一步已接近完成,用于报告的结果正在汇总,年底可以出报告。OCLC从LC和德国国家图书馆收到规范记录和书目记录做的第一件事是比较和匹配记录。
这张幻灯片展示了2003年年底进行记录匹配时各自的规范记录总量。LC有近400万规范记录,DDB有近250万。大约有7.8%的单一实体记录,有6万4千多对名称,由于匹配了多个记录(例如在一个文档中的一样的名称匹配了另一个文档中的两个或两个以上的记录)而作为匹配失败。匹配的误差率大约为1%。
我们还需要决定这种匹配是否值得花费成本与管理费用在规范和书目记录上。
在匹配过程中,对规范记录和书目记录都作了检查。对于个人名称,无论在书目记录里是作为主要款目还是附加款目,都做了衍生规范(derived authority)。除了名称,衍生规范记录中还有从有关书目记录中获取的出版资料的概要说明。一个包含多个个人名称的书目记录,将产生多个衍生规范记录。
所有这些个人名称衍生规范都将与其规范记录集合在一起。
所有单个的衍生规范记录的内容都要追加进去形成增强级规范记录。OCLC将用增强级规范记录作为VIAF的数据库。
该项目的第二步是建立可检索的数据库。OCLC采用开放资源软件,通过站内检索提供对该数据库的检索作为这部分的测试。当我们连接时,我们将建立一个或多个有该元数据的服务器的连接:其中一个会在OCLC,可能另一个在OCLC的欧洲办公室(PICA),另一个在DDB。本计划中没有在LC设服务器。
第三步用OAI协议验证这一概念,即通过收割新的、更新的或删除的来源规范文档的元数据进行服务器信息的维护和更新。
有可能发生的最后一步是通过最终用户的显示功能能够来验证这一概念,即在最终用户的计算机上能够显示用户首选的语言和文字形式。由于技术的原因,目前我们会把把这一步忽略掉。
现在我们采用这种模式(集中式联合规范文档),因为这种模式能使数据维护得到最大的保证但是和书目记录匹配需要费用,这个到底要花费多少还没有一个概念。假如证明是成功的,我们就可以把全世界主要的规范文档都连接在一起,包括其它一些机构的,例如摘要和索引服务商、档案馆、博物馆、出版商等。我们尤其期盼用非拉丁文字规范信息来测试这一战略决策。我们还要测试其它类型的规范记录,例如团体名称、地理名称和统一题名。我们知道抽象的概念常常不能从一种语言唯一地转成另一种语言,因此VIAF未必能将主题包含在内。
我们希望这样能够保留本地的名称形式,并连接使用不同编目规则的不同记录,从而满足用户的要求。
我们能够想象在将来作为将来语义网整体的一部分的共享国际规范文档。你们或许在几年前的《科学美国人》(Scientific American)杂志看到过由英特网创始人Tim
Berners-Lee撰写的有关这方面的文章。这一思想使得英特网系统自动搜索的智能化甚至可以高于人工的网上搜索。语义网包括创建连接资源的基础结构和使用受控的词汇,被称之为“知识本体”。这些“知识本体”能够采用用户自己的语言和文字显示。
这将会是图书馆对将来环球网基础结构的一个贡献:在我们的各种规范文档中已经有了受控词表。这些将与其它受控的摘要索引服务、书目、电话姓名地址录以及许多其它参考根据和资源连接,帮助用户搜索导航,改进检索精度,使得用户能够找到他们所需要的信息。
你可以看到我们也安装了一个作为汇集资源的检索引擎和未来的工具将把我们连接到整个数字世界。当然所有这些安装必须符合安全、保证隐私,具有能够识别资源并确认我们能够信任和依靠的资源的方法,所有的版权问题也都应该得到解决。当然这是在谈将来的事!
但是也给了我们进一步考验和考虑如何作出比我们现在所想像的更好一些的可能性和时机。网络给我们带来了一种新的传达信息的方法。新的方法是,我们的目录,也就是显示联机目录的个人电脑,同时也是查看数字资源以及连接整个数字世界的工具。
一个随时可以利用的虚拟国际规范文档可以被网络系统用于改进用户检索精度,有助于以用户偏好的语言和文字来显示名称和主题。
* 该文依据IFLA书目控制组主席、美国国会图书馆编目政策办公室主任Barbara B. Tillett女士于 2006年8月16日在韩国首尔召开第四次IFLA国际编目规则专家会议(IME ICC 4)所做的演讲PPT文稿翻译而成。 [1] 即李滉(이황,1501年-1570年),字景浩,号退溪,朝鲜中期的大臣,学者,儒学思想家。 |