(中南大学图书馆,湖南 长沙 410000)
早在2009年,Milner就曾指出科研数据每年以127%的速度在增长。作为国家科学研究的重要组成部分,高等院校每年都会产生大量的科研数据,对于科研数据的管理已经成为各高校是一项重要任务。在E-science环境下,高校图书馆应把科研数据管理服务纳入基本服务来,以协助科研人员完成科学的数据管理。科研数据服务(Research Data Service,RDS),是基于科研数据整个生命周期所产生的相关服务,包含元数据创建与转换,数据管理计划与数据监管(数据的选取、保存、维护和归档)。
1 调研对象与方法
根据2019年QS世界大学综合排名,选取榜单中英国排名前10的大学作为调研对象,包括牛津大学、剑桥大学、帝国理工学院和伦敦大学学院等10所高校。调研时间为2019年5月10日至6月20日,采用网站调研法,分别进入这10所大学的图书馆网站主页,调查各馆是否开展了科研数据管理服务,并对其展开的科研数据管理服务进行深入的分析和归纳。2 调研结果
调研显示,这10所高校都提供了科研数据服务,除了牛津大学和爱丁堡大学,其他8所高校的科研数据服务都是由图书馆来承担,服务栏目设在图书馆主页的“Research”“Research Support”“Researcher Services”等类目下,全都以“Research Data Management”命名。在这些类目下,各高校提供的科研数据服务是基于数据生命周期的一系列连续服务(见表1)。
表1 10所高校科研数据服务内容

续表1
笔者对10所高校开展的科研数据服务内容进行了归纳和总结,可以分为三个阶段:项目准备阶段,主要包括科研数据管理概述和介绍、政策、数据管理计划、伦理和法律问题、成本核算等;项目进行阶段,主要包括数据创建、数据组织和描述、数据备份、数据安全、敏感数据和数据保护、数据共享和数据存储等;项目完成阶段,主要包括数据引用、数据再利用、数据发现和长期保存等。另外,在各个研究阶段各图书馆都提供了渗透性的服务支持,主要包括FAQS、培训和资源、工具、新闻事件、专业术语词汇和在线咨询等。
3 英国高校图书馆开展科研数据服务内容
3.1 数据管理计划
数据管理计划是要求对项目过程中和完成后所产生的数据如何管理做一份计划,10所高校图书馆都提供了此项服务,多所高校认为最好在项目研究前期就制定完成。伦敦政治经济学院指出数据管理计划应包括对数据的收集、组织、使用、语境化、存储、保存和共享。主要服务内容有:1)软件工具DMPonline。它是DCC开发的数据管理规划工具,帮助用户创建个性化的计划,内容一般涵盖文件和元数据、数据储存和备份、数据保护、数据共享和利用等方面。2)资助者的DMP要求。内容主要涉及各科研资助机构是否需要提交DMP、是否提供模板、数据保存时间、有无首选存储库等。各资助机构对数据管理计划内容有不同的要求,如AHRC要求有一份详细的技术方案,在研究报告中需要有技术支持、技术经验介绍;BBSRC要求有一份数据共享计划,要包含数据的格式、数据的类型和元数据等。3)预算成本。主要包括数据收集成本、管理成本、分析成本、数据共享和保存成本等,UK Data Archive对此建立了一个数据管理成本工具和清单。3.2 数据组织
科学数据只有经过组织才能更好地被分享和利用。调研发现,10所学校都提供数据组织服务,内容主要涉及文件和文件夹命名、文档和元数据、文件格式和结构、参考管理软件等。1)文件和文件夹命名。简洁有效的文件和文件夹名可以让人在不打开文件的情况下分辨文件内容,能够迅速被找到进而节省时间。理想的文件名可以选择包含一个标识点来分类文件。帝国理工学院认为,可以从项目的缩写、研究者的名字、版本号、日期等来标识分类文件。文件夹可以根据文件的创建日期、项目阶段、关键点和研究方法来进行分组。2)元数据。良好结构的元数据不仅支持对科研数据的长期发现和保护,同时允许对海量研究数据的聚合和检索。曼彻斯特大学和包括EPSRC在内的许多研究资助者要求研究人员提供元数据,以便其他人理解相关科研数据是如何创建的。帝国理工学院介绍了常用的元数据标准:统计数据SDMX、实验数据标准ISA、通用数据标准DCMI。3)文件格式。伦敦政治经济学院指出,文件格式有开放和封闭两种类型,开放格式是科研数据共享和长期访问的首选;帝国理工学院指出,应该尽量选择比较稳定和标准的格式,以便容易储存和识别,介绍了一些标准格式,如文本格式有Plain text、HTML、Rich Text Format等;图片格式有TIFF、PNG、JPEG2000;视频格式有MP4、Ogg Video。3.3 数据备份
备份并不对数据进行长期的保存,它的主要目的是在系统出现故障时将系统恢复到当前状态(截至最近一次备份的日期)。曼彻斯特大学和伦敦国王学院介绍了文件备份“3-2-1”原则,即“保留3份备份文件在至少2种不同类型的介质上,至少1份副本要进行异地存储”。调研各校主要备份方式有:1)学校服务器。牛津大学提供的基于学校中央服务器的HFS备份和归档服务,它只服务于本校研究生、高级成员和员工,不对本科生开放,为用户提供任何文件的最新和紧跟之前的两个版本备份,支持文件删除、覆盖、丢失后的恢复,是一个“灾难恢复”服务。2)云储存。如微软为所有用户提供的One Drive for Business服务,每人有1TB容量;帝国理工学院为本校研究者提供无限量的基于云端的BOX Service数据备份存储服务。3)便携式工具。如光盘、U盘、笔记本电脑等,为保证数据安全,最好对文件进行加密。3.4 数据存储
科研数据长期保存与开放获取在国际学术界已经成为一种趋势。数据存储涉及存储的格式、标准、时间和位置等。华威大学认为,理想的数据保存格式应该是未加密的、未压缩的、非专有的/专利保护的、基于开放的和广泛实施的文档标准。调研显示,各学校提供的保存方式有:1)学校机构库或学术库。调查中10所大学都建立了自己的知识存储库。如牛津大学的ORA-Data,是为校内研究者提供数字化研究成果保存的知识库,支持科研数据的访问、保存、共享和引用,提供DOI分配。2)资助机构指定库。有些资助机构要求将数据存储到特定的库中,要遵循资助机构的数据存储政策。剑桥大学对资助机构存储数据做了介绍,如ESRC要求社会、经济和人口领域的数据优先存储在UKDS的ReShare中;NERC要求数据存储到NERC数据中心。3)特定学科库。学科库可以提供专业的知识和经验,但标准会比较高。剑桥大学列出了英国主要学科库,如基因研究库GEO、数学和物理学科库arXiv、英国社会科学和人文科学库UK Data Archive等。此外,可以通过Scientific Data和PLoS期刊来查找特定的学科知识库。4)通用存储库。通用库易于查找且一般免费,但是对文件大小有限制,提供的空间也有限,如由欧洲委员会开发的开放科学知识库Zenodo、国际知识共享平台DataHub、能让用户数据可视化的开放存储库Figshare、免费开放的长尾数据存储库Mendeley Data等。5)开源存储软件。开源软件方便共享和管理。如GitHub、Bitbucket。6)分学科目录导航工具。如re3data.org、Research Pipeline来供用户查询数据存储库。3.5 数据共享
对于研究者来说,数据共享可以增加引用率,提高学术和行业影响,符合资助机构和出版商的要求;对于研究团体来说,数据共享可以提高科研记录的完整性和可靠性;对于公众而言,数据共享可以减少重复研究,提高科研经费的投资回报率。数据共享主要包括注意事项、阻碍因素和共享方式。一般数据共享之前要注意取得作者同意,匿名保护个人的敏感信息,取得许可证,调查中各学校提供数据共享的方式主要有:1)上传到学校服务器或学校存储库。如伦敦大学的开放存储库Discovery,支持存储库中研究数据的在线免费访问和共享;2)上传到资助机构建立的存储库。公共资助机构的一个重要原则是数据是为公众产生的公众产品,应尽可能地对外开放。如NERC、ESRC都建立了自己的开放存储库;3)以期刊、报告、书籍等方式公开出版;4)网络共享。多所大学推荐的微软的SharePoint,是一个对所有大学开放的、提供数据存储和共享的网络协作空间。4 英国高校图书馆科研数据服务特点
4.1 开展的特色服务
数据分析和数据密集型研究服务。随着大数据时代的来临,科学研究进入数据密集型科研环境,科学研究越来越依赖于对大量科研数据实时、动态地监测和分析。图书馆也应转换角色,为科研人员提供数据分析和处理服务。布里斯托大学对此免费为学校员工和研究生提供高性能计算服务。高性能计算为用户提供一个灵活扩展、高效稳定的高性能计算平台,能提高计算效率、缩短科研周期。布里斯托大学为用户提供BlueCrystal设备来对数据进行分析,它可以一次同时运行多个处理器。
此外,布里斯托大学图书馆还与学校数据密集型研究中心——Jean Golding研究所展开密切合作,经常为研究者提供数据分析、可视化、密集型研究等主题培训,成立了数据可视化兴趣小组,通过支持数据计算、统计、建模、可视化来帮助研究人员更好地利用数据。