生物分类学数据库发展趋势
作者:吴信辉
前言
在生物学(Biology)与生物多样性信息学(Biodiversity Informatics)的相关学门领域里,最基础以及重要的议题就是:「如何将每一种生物有效地分门别类出来;以及用简单的方式表现出它们之间的关系」。特别是在信息科技普及的今天,生物学家运用信息科技的能力普遍提高,生物学家们可以利用文字文件、电子表格软件,自行建立与储存他们本身所搜集、调查的生物、物种之相关数据与信息;而数据库技术的出现,使得生物学家可以利用数据库,更方便地、更有结构性地储存他们所搜集的生物、物种之相关数据与信息。
由于数据库本身的特性,数据库中的数据结构是弹性的,也就是说我们可以依据自己的需求,建立符合自己需求的数据库【注1】。但是,假设世界上的每一位生物学家都依据自己的习惯、偏好建立专属于自己的数据库与数据库应用系统,那么,生物学家与生物学家之间该怎么分享、交换彼此的数据呢?笔者本期将透过参加TDWG 2006【注2】的经验与心得,向读者介绍与分析生物分类学数据库的基本概念以及目前之发展趋势。
生物分类学数据库工作小组(Taxonomic Databases Working Group, TDWG)介绍
(一) TDWG简介
生物分类学数据库工作小组【注3】之另外一名称为分类学数据库国际工作小组(International Working Group on Taxonomic Databases),是一个非营利性的科学与教育社团(association或称协会),附属于国际生物科学联合会International Union of Biological Sciences(IUBS【注4】)之下,成立目的在于建立生物数据库(Biological Database)之间的国际合作机制,以促进生物的相关信息可以更广泛地、有效率地普及,让生物相关的利用可以对全世界做出最大的贡献。也就是说:「TDWG就是做生物分类学数据库(Taxonomic Database)的人的社群(Community)」;而社群的概念也等同于工作小组(Working Group)。
为了达到上述的目标,TDWG制订了下列三项策略:
1. 发展、采用与促进生物纪录与交换的相关标准与指导原则:有关于生物学的相关分类标准,TDWG都会组成相关的小组进行研究与评估。以【图1】为例,我们可以发现TDWG近期所推动的相关标准,例如:Plant Occurrence and Status Scheme、Users Guide to the DELTA System、Plant Names in Botanical Databases,其中包括了生物分类纪录格式的标准、新技术的操作指引以及最佳范例参考等不同类型的标准。综观这一些标准,皆是为了促进生物分类的技术更加地一致、容易使用。
2. 经由最适当与有效的方法来促进生物相关数据的使用:TDWG经由上述的标准推动,自然而然会与其它的生物相关组织产生交流,例如:GBIF【注5】。 TDWG会利用这样的交流,将其它好的应用范例引进为TDWG的标准,或是将自身建立的标准推广出去,利用这样的方式来促进生物相关数据的使用。
3. 经由举办会议(Meeting)或是发行出版品(例如是Newsletter)来形成讨论的论坛(forum),例如TDWG每一年所举办的年会或是相关的Workshop。
上述的策略也转化成实际的任务。有关于TDWG的任务,分别有三项,如下列所示:
提供生物相关数据库研究计划的国际论坛;
发展与促进标准的使用;
促进生物相关数据的交流、交换。
TDWG目前运作模式以网站活动为主【注6】,实际举办之活动为辅;主要工作内容包括:生物相关数据交换标准的推广、于每年举办年会检讨本年度的相关标准推动的进展,并举行行政会议来讨论新的标准是否被纳入TWDG所推动的标准之中。其它相关推动相关标准的研究人员、组织或是计划,也可以趁着年会活动的同时,向TDWG与所有参与年会的人士介绍他们的新标准。在组织分工上,除TDWG管理行政的组织外,TDWG另外组成了几项附属小组【注7】,这些附属小组的分类主要是以该项议题的急迫性来区分,较为急迫的,他们称之为工作任务(Task),较为不急迫的,他们称之为兴趣(Interest)。因此附属小组的基本分类可以区分为两个,分别为:TDWG工作任务小组(TDWG Task Group)与TDWG兴趣小组(TDWG Interest Group)。
在网站的营运上,TDWG是利用入口网站与Wiki网站作为载体。2006年TDWG更新其信息架构,利用内容管理系统(Content Management System, CMS)管理论坛、Wiki及其发布之相关文件、信息;其CMS所采用的软件平台为PHP语言的Typo3(本平台为Opensource)。
(二)TDWG发展历史
TDWG成立于公元1985年,在瑞士日内瓦的Conservatoire et Jardin botaniques成立,早期是由植物学家与相关数据库应用者所成立;自1990年代之后,陆续加入其它领域的生物学相关学者、研究组织与计划,并逐渐扩展到目前的规模。
(三)TDWG与GBIF比较
TDWG与GBIF相比较之下,GBIF专注于数据的提供与分享,在数据交换的标准上,GBIF倾向采用其它相关组织,例如:TDWG、IT IS等所发展的标准;而TDWG则是强调相关生物相关数据与分享、交换的标准与技术的推动。如前所述,这两个组织的互动是相当密切的,也因此,GBIF组织中的重要成员也几乎是TDWG中的相关成员。
(四)TDWG附属工作小组介绍
1. 附属工作小组NCD
Natural Collection Description,简称NCD,该小组主席为Neil Thomson(n.thomson@nhm.ac.uk),官方网站为http://www.tdwg.org/subgroups/ncd/。 NCD是一种以XML为载体的数据交换标准(Data Interchange Standard),描述自然历史文物收藏品的内容;内容跟Darwin Core一样,是一种诠释数据的交换标准。不同的是TDWG强调NCD的轻量(lightweight)特性,以及可以弹性交换的特性。相关介绍的参考资料可以参考NCD Introduction【注8】,与Current Trends in Biodiversity Collection Description【注9】。
2. 附属工作小组:TNC的介绍
Taxonomic Names and Concepts,简称TNC,该小组主席为Jessie Kennedy(j.kennedy@napier.ac.uk),官方网站为http://www.tdwg.org/subgroups/tnc/。 TNC主要是讨论物种分类名称(Taxonomic Names)与这一个分类名称中被描述的相关特性数据(Taxa,又称Taxon Concepts)的关系。同时,TNC利用标准的数据表示模式(Standard Data Model)来呈现物种分类名称与特性数据,还有如何与其它的生物多样性数据模式(描述标本的数据模式)沟通、连结。TNC目前发展的第一个标准就是 TCS(Taxonomic Concept Schema);目前的目标就是与其它的数据标准沟通,例如:SEEK的EML,还有转换成资源描述架构(Resource Description Framework, RDF)的功能。
3. 附属工作小组:Imaging的介绍
Image Interest Group,简称Imaging,该小组主席为Robert A. Morris,官方网站为http://www.tdwg.org/subgroups/img/。一张生物的图片,可以表达、呈现出很多东西,包括图片中该物种的生物特征、栖息地特性等许多的诠释数据,因此Imaging小组负责的是所有附属小组皆需要的基础建设。Imaging主要是讨论图片格式与发展标准的、以计算机为基础的机制,来管理与转换有关多媒体的描述性信息,包括:诠释数据、专用术语、知识本体(Ontology)、描述、档案交换格式与相同的、联合的资源。
4. 附属工作小组:SDD的介绍
Structured Descriptive Data,简称SDD,该小组主席为Gregor Hagedom等人,官方网站为http://www.tdwg.org/subgroups/sdd/。SDD小组负责的也是所有附属小组皆需要的基础建设。SDD主要是发展标准的、以计算机为基础的机制,来呈现与转换有关生物体的及其特征的描述性信息,包括:专用术语、知识本体(Ontology)、辨识工具与联合的资源。
5. 附属工作小组:GIG的介绍
Geospatial Interest Group,简称GIG,该小组主席为Reed Beaman等人,官方网站为http://www.tdwg.org/subgroups/gig/。 GIG从2001年的Spatial Data Subgroup,演变至2004年的Geospatial Information Subgroup,到今天的GIG。GIG小组负责的也是所有附属小组皆需要的基础建设。GIG主要是发展生物的数据与地理的数据的交互应用,包括数据标准的采用与整合与新技术的研发,以增加生物与地理数据的可应用性与相互操作性,例如:Web Mapping Services(WMS)、Web Feature Services(WFS)与Geographic Markup Language(GML)。此外,GIG还积极与开放性地理组织(Open Geospatial Consortium, OGC)与EONRE WG(Natural Resources and Environment Working Group)进行合作。目前的成果有:Darwin Core GML Application Schemas等。
6. 附属工作小组:ISIS的介绍
Invasive Species Information Systems,简称ISIS,该小组主席为Annie Simpson(asimpson@usgs.gov)等人,官方网站为http://www.tdwg.org/subgroups/isi/。ISIS的架构跟SDD差不多,差异只是在强调与GISIN的合作,建立防治方法、入侵种的管理、入侵种的影响建模(Modeling)与影响的预测等。
7. 附属工作小组:ABCD的介绍
ABCD在TDWG中算是一个标准,也算是一个附属工作小组。Access to Biological Collections Data,简称ABCD,该小组主席为Walter G. Berendsohn等人,官方网站为http://www.tdwg.org/subgroups/abcd/。说明ABCD目前的发展进度与未来工作,如果需要了解的话,还是必须从ABCD Schema开始读起。
8. 附属工作小组:TAG的介绍
Technical Architecture Group,简称TAG,该小组主席为Roger Hyam(roger@tdwg.org),官方网站为http://www.tdwg.org/subgroups/tag/。说明TDWG标准的架构,包括:为何标准要用XML作为载体、利用XML作为载体数据才可以显示出意义、对象的连结则是提出利用GUID的概念来处理,并建议有良好定义的资料查询与交换标准。数据意义的部分,倾向利用知识本体来呈现;连结的部分则是利用GUID的概念以及LSID的概念;数据交换标准的部分,则是提出TAPIR、BioCASe、DiGIR等的交换标准。
9. 附属工作小组:TAPIR的介绍
TDWG Access Protocol for Information Retrieval,简称TAPIR,该小组主席是Renato De Giovanni(renato[at]cria[dot]org[dot]br),官方网站为http://www.tdwg.org/subgroups/tapir/。本附属小组主要的工作为起草、制订与维护TAPIR这一个标准。TAPIR是一个经由HTTP传送的分布式数据库分享标准。TAPIR合并与加强了 BioCASe与DiGIR的标准,可以说是上述前两者的加强版,让使用TAPIR标准的使用者可以利用更一般化的方法与数据提供者沟通。TAPIR这一个附属工作小组还必须确保这一个标准的可应用性与效率。此外,本标准是利用PyWrapper这一个工具所产生的(PyWrapper的官方网站:http://trac.pywrapper.org/pywrapper/)。想了解TAPIR的制订过程的的纪录,请参阅网址所列的文件【注10】。
生物分类学数据库发展趋势
(一)整合(Integration)与可相互操作(Interoperability)同时并进
生物分类学数据库,除了建立共同的标准这一个整合(Integration)的议题之外,如何让两个在不同的标准之中的生物分类学数据库仍然可以相互沟通,则是另外一个重要的议题:可相互操作(Interoperabliity)。在整合部分,我们可以见到很多相关的诠释资料的标准,例如:Darwin Core、ABCD等;在可相互操作部分,从DiGIR标准,到新的、以Web Services为基础的相互沟通标准、以及相关的新发展,分别说明如下:
1. The Big Dig
iGIR的强化版【注11】,可以自动化地搜寻与监视DiGIR data provider,以及这些provider的资源以及邦联式的纲要资料,详细的细节可以参考下列网址的这一篇文件【注12】,以及其管理接口范例。
2. The EFG extension to the ABCD schema
ABCD【注13】的延伸,ExtensionForGeosciences,主要是针对地理数据的诠释数据的建立,详细数据请参阅其官方网站【注14】。
3. openModeller
主要为Web Services的应用,将生物分布数据与地理数据整合成同一个服务。利用Web Services,将不同结构的数据,经过程序的转换之后,于统一的接口上呈现出来,是该软件最主要的发展目标。该软件为Opensource,在 Sourceforge中为一个项目,请参阅该官方网站【注15】。
(二)新的信息基础建设
除了整合与可相互操作的议题之外,生物分类学数据库还需要在新的信息科技的发展下,利用这些新的信息科技技术来提升生物分类学相关的信息基础建设,包括:储存数据的格式、进行这些数据编辑的接口、以及呈现这些数据的工具。笔者分别各举一例说明如下:
1. An Integrative, Standards-Compliant Framework for TDWG Schemata and Services
主要的内容是以程序设计的角度来分析TDWG中这些生物分类学数据的模式问题,其中主要的重点在于:「将生物分类学数据的纲要(Schemas)看做是一个对象中的类别(Classes of Objects)」。最后以附属工作小组GIG的数据标准作为范例,展示其UML图,如【图5】所示。
2. Web 2.0为基础的数字文献管理
在生物分类学数据库中,生物相关文献之保存数据也是相当重要的。如何有效地将老旧纸本的数据给数字化,再利用信息科技的协助将数字化后的文献档(可能是一张影像文件),利用文字辨识工具将文献中的内容抽取出来,或是提供一个方便的数据编修工具,协助管理者将内容转换成数据库中的数据。Botanicus.org是一个以最近很热门的Web 2.0技术为基础的植物文献管理系统,该系统利用方便的浏览与编辑接口,协助管理者管理,并让一般使用者可以简单、快速地运用该项资源【注16】;其操作范例如【图7】所示。
3. oogle的协助与启发
Google Map的推出,给从事地理信息系统应用的人很大的震撼。虽然在开放原始码阵营中,不断有所谓的开放原始码的地理信息应用系统出现;但可能因为效能的缘故、操作便利性的缘故,让这一些开放原始码的项目都没有得到热烈的回响。Google Map与Earth的出现,使得原本封闭式的地理信息系统操作环境变成一个在线随手可得、基本的应用。这也说明了基础建设的重要性,笔者将其归纳为 Google的协助;Google Map的出现,让生物分类学数据中的分布数据有了很大的发挥空间。透过Google Map的协助,不同专家学者计算机中的数据库应用系统,在这些不同的数据库应用系统中,相同物种的数据可以透过Google Map呈现在同一个接口。此外,生物分类学数据库还可以应用Google中很多新开发的功能。本文将Google相关的新的应用归纳为Google的启发,因为Google的新应用,才让我们了解:「原来数据还可以有这样的应用啊!」。相关的应用可以参考【注17】,本文摘录【注17】的想法,包括引入 Google Base、Google Co-op与Google KML的相关应用,分别说明如下:
(1) Google Base
Google Base笔者将其定义为一个数据发布的服务,即任何想要发布数据的人,不一定需要会因特网相关的程序撰写技巧,也不需要自己准备服务器等硬件,亦即,每一个Google的使用者可以建立自己的数据内容,并将其公布在网络上【注18】。
生物分类学数据库可以利用Google Base建立出自己的生物搜集资料的呈现页面。不过,现今的生物学家大多已经利用数据库建立出自己的数据库应用系统。目前Google Base的接口还停留在以编辑接口建立数据的阶段与生物搜集数据的整合,仍需要等待其发展成熟。
(2) Google Co-op
Google Co-op是一个可以提供使用者客制化自己需要的搜寻引擎的平台。Co-op就好像是英文Cooperation,合作,主要的目的就是要利用人类的之事来协助搜寻引擎可以更好用;其内容主要包括三项服务,第一项服务是:创建自己的搜寻引擎,也就是自己网站内的搜寻引擎,我们自己的网站,可能Google 会搜寻到,但是因为是机器搜寻的结果,所以利用Google的查询结果并不我们想要给查询者知道的。利用Google Co-op,我们可以定义自己网站内的搜寻引擎、搜寻机制与搜寻关键词定义等,定义出最符合自己需求的搜寻引擎。
第二项服务是:Subscribed Links,这是利用人类的知识来整理分析结果。例如:我想找一个可以信任的妇产科信息,范例如【图7】所示。透过传统的、机器运作的搜寻引擎,我们可以找到相关的结果,或者是我们查询论坛中的讨论信息,利用Subscribed Links,可以找到人家找过的相关连结。这是经由人家查询、过滤过的,所以这一个信息可以被相信的机会也就比较高。也就是说,我们可以提供出我们特殊的搜寻结果供其它的使用者参考;其它使用者如果相信你的搜寻质量,可以利用订阅的方式透过你来获得该搜寻结果。第三项服务就是协助搜寻分类的定义,与目前 Web 2.0中的tagging机制差不多。
而生物分类学数据库该如何利用Google Co-op呢?其实可以把焦点放在协助生物分类学数据的知识累积上,我们可以透过每一个Co-op来获得相关的生物分类学参考数据的知识。例如,研究某种鱼的特殊生态,不同地区的生物学家可以透过Co-op来告诉大家在他们那一个区域有关于此种鱼的相关生态的数据与知识。如此一来,一个学生就可以透过 Co-op顺利地得到有关于此种鱼的全面性知识。
(3) Google KML
生物学家如果要利用Google Map或是Google Earth来呈现其所搜集的生物分布数据的话,就必须把数据格式转换成Google Map或是Earth看得懂的格式,这一个格式叫做KML(Keyhole Markup Language)。有关于KML的相关介绍,可以参阅【注19】与【注20】的信息。
生物分类学数据库的开发者应该发展一套可以将生物学家所拥有的生物分布数据,转换成适用于Google KML标准的数据格式。笔者相信经由Google Map的普及性与易用性,将可以促使这些数据的被利用度提升许多。
4. 生物分类学数据库与地理信息系统
物种的数据除了本身所处的生物架构下的角色地位之外,另外一个重要的信息就是其生态信息。所谓的生态信息除了环境的信息之外,还有其生物分布的相关信息。谈到分布的信息,就必须利用到地理信息系统;有关于地理信息的标准,TDWG目前也正在研拟之中。以笔者的观点,与OGC的 GML(Geography Markup Language【注21】)整合是必然的方向。
5. 生物分类学数据库与生物信息系统
生物信息(Bioinformatics)可以算是生物分类学数据库内的一个子项目。在TDWG2006中,我们可以看到很多MorphBank 【注22】的应用出现,说明了传统生物分类学数据库对于演化生物学的贡献。在未来,我们将会看到更多生物分类学数据库与生物信息统合管理的应用系统。
结论
生物分类学数据库主要讨论的内容有三大部分,分别是数据如何储存、数据的结构该如何定义(生物基本数据与生物分类数据、生物影像图片数据、生物分布、生态与栖息相关数据)、以及数据该如何呈现。经由信息科技的协助,生物分类学数据库应用系统也随之产生,未来除了持续数据标准的整合与可相互操作性程度的提高之外,如何有效利用这些数据变成了未来的趋势。除现今比较成熟的地理信息应用之外,未来的语意网(Semantic Web)的相关基础建设,将是未来的明日之星,值得生物学家等相关学者密切注意。
参考文献
【注1】:现今的数据库系统大多是关系型数据库系统(Relational Database System)。关系型数据库的主要特征在于数据呈现的方式是以表格的方式呈现的;以表格方式呈现的数据,以字段作为数据属性存放的地方,以列储存不同笔数的数据。这些表格中字段的设计,统称为数据库纲要(Database Schema)。在一个复杂的数据中,可以经由设计的过程,利用不同的表格储存这一个复杂数据中的各个部份;每一个表格储存不同的属性,再利用组合这些表格的方式,将数据回复为原始的数据。不同的数据储存方式都有其优点与缺点,以表格储存一般性的数据会因为在设计过程中,对于数据的理解程度的高低,而造成数据库纲要的差异。也就是说,不同的数据库设计人员对于同一份数据内容,会因为理解程度的差异而设计出不同的数据库设计纲要。为确保数据设计的一致性,学术界中对于数据酷的理论也多有探讨,并发展出许多数据库的分析方法,其中最为基本的分析方法就是数据库的正规化过程(Database Normalization)。
Wikipedia中对于Relational Database System的介绍,英文,available at URL
<http://en.wikipedia.org/wiki/Relational_database_management_system>
Wikipedia中对于Database Normalization的介绍,英文,available at URL
<http://en.wikipedia.org/wiki/Database_normalization>
有关于数据库设计之相关教学,现在网络上也可以寻找到很多在线的教学数据。陈尚宽,数据库的正规划,中文,available at URL
<http://www.bamboo.hc.edu.tw/research_publish/textbook/cis01/part2/info-ch07.html>
【注2】:TDWG2006简介:TDWG2006是TDWG在2006年度的年会,其主题为「建立生物多样性数据应用系统(Building Biodiversity Data Applications)」。TDWG的参与会员大多是欧洲国家与美国的研究机构与大学,因此每一年的年会的举办地点大多为欧洲与美洲互换;像前年的 TDWG2005即是在俄罗斯的圣彼得堡举行。本次年会的主办单位是位于美国密苏里州圣路易市的密苏里州植物园,密苏里植物园是TDWG的创始会员之一,在成立近二十年后于此地举办年会别有特殊意义。TDWG参加的成员大多为欧洲与美洲的专家学者,包括某些华裔的专家学者。去年的TDWG2006,在亚洲的部份,仅有台湾、日本与韩国三国参加,没有中国大陆或是其它亚洲国家参与,TDWG2006的会议内容,主要是前面所述的主题:「建立生物多样性数据应用系统(Building Biodiversity Data Applications)」。
【注3】:TDWG(Taxonomic Databases Working Group),其官方网站为:
http://www.tdwg.org。
【注4】:IUBS之官方网站为:http://www.iubs.org/。
【注5】:GBIF是(Global Biodiversity Information Facility)全球多样性信息组织的简写,主要负责全球生物多样性的信息的搜集与分享,有兴趣的读者可以参阅笔者之「出席GB10暨NODES7会议纪实暨心得」,中文,available at URL <http://www.ascc.sinica.edu.tw/nl/94/2114/02.txt>
【注6】:TDWG目前是由Gordon and Betty Moore基金会所资助,Gordon and Betty Moore基金会相关信息,在其官方网站中有详细的介绍,网址为:http://www.moore.org/。
【注7】:Subgroup,本文将其英文Subgroup翻译为附属小组,而不使用「子群」这一个词。
【注8】:英文,Available at URL <http://www.rlg.org/en/pdfs/Forum.8-06.Butler.pdf>
【注9】:英文,Available at URL
<http://www.ukoln.ac.uk/events/cd-focus-showcase/presentations/nthomson.ppt>
【注10】:英文,Available at URL
<http://www.tdwg.org/fileadmin/subgroups/meeting_reports/TAPIR_Madrid_Meeting_Report.pdf>
【注11】:有关于DiGIR的介绍,请参阅笔者有关于DiGIR的相关文章,「生物多样性数据交换标准DiGIR介绍」,中文,available at URL <http://www.ascc.sinica.edu.tw/nl/93/2022/02.txt>
【注12】:英文,Available at URL
<http://linnaeus.zoology.gla.ac.uk/~rpage/talks/vieglais_TheBigDig.pdf>
【注13】:生物多样性的相关诠释资料介绍,中文,available at URL
<http://www2.ndap.org.tw/eBook/showContent.php?PK=14>
ABCD著录规范,中文,available at URL
<http://www.sinica.edu.tw/~metadata/standard/standard-big5/abcd-rule_v1-0-3.pdf>
【注14】:英文,Available at URL
<http://ww3.bgbm.org/abcddocs/DesignAbcdExtensions>
【注15】:英文,Available at URL <http://openmodeller.sourceforge.net/>
【注16】:Botanicus.org的官方网站,英文,available at URL <http://botanicus.org>
【注17】:一位在Google工作的信息应用科学家于TDWG2006中所提出的新想法,英文,available at URL <http://www.rebeccashapley.com/biodiversity/usinggoogle.htm>
【注18】:Google Base说明,中文,available at URL
<http://cdnet.stpi.org.tw/techroom/analysis/pat_B020.htm>
【注19】:Google释出行动地图批注功能,中文,avialable at URL
<http://www.ithome.com.tw/itadm/article.php?c=38967>
【注20】:应用Google Earth实现三维房屋模型之空间数据套合,范成楝,中文,available at URL
<http://www.ascc.sinica.edu.tw/nl/94/2121/03.txt>
【注21】:Geography Markup Language的官方网站介绍,英文,available at URL
<http://www.opengeospatial.org/standards/gml>
【注22】:储存生物影像图片数据的数据库应用系统,其官方网站为:http://www.morphbank.net/。
