半岛综合体育官方APP下载德甲自1975年以来光谱学
瑞士万通广告

光谱数据是公平的吗?

利亚McEwen,一个大卫•Martinsenb罗伯特•兰开夏郡c彼得Lampend和安东尼·n·戴维斯e, f

一个物理科学图书馆,伊萨卡康奈尔大学,14853年纽约,美国。
b位于马里兰州Rockville大卫Martinsen咨询,20850年,美国。
c大学的化学系,西印度群岛,莫娜,Kgn 7日,牙买加。
dLeibniz-Institut毛皮Analytische Wissenschaften账户,德国多特蒙德。
e专家能力,测量和分析科学,阿克苏诺贝尔化学品b.V。代芬特尔,荷兰
f国家电力、可持续环境研究中心、学院计算、工程和科学,
英国南威尔士大学。

DOI:https://doi.org/10.1255/sew.2018.a2

让我们先从一个定义:公平的代表可发现的,访问,可互操作、可重用。肯定一个明确的目标对于任何学术或工业实验室负责操作。让我(和)跟进忏悔…我以前只是觉得公平作为另一个提供来自周围的bioinformaticians开放科学出版社出版。然而,我很快学会了什么开始作为一个运动改善智能访问开放科学和支持数据包含所有工作的工具和方法有潜力成为非常重要的在我们的日常工作。同样适用于作为一个节省时间的战略定位和检索在一个公司的机密信息。或许值得注意的是,公平并不一定意味着自由。本专栏提到公平,与亨利Rzepa NMR数据存储库,1但没有真正进入任何深度。

为什么现在探索这个话题?利亚McEwen,化学在克拉克康奈尔大学物理科学图书馆馆员在美国,从大卫Martinsen(30年经验的协助下与美国化学学会出版机构)组织,跑一个非常成功的研讨会的支持下国际纯粹与应用化学联合会(IUPAC)和数据委员会国际科学理事会(CODATA)。“支持公平交换的化学数据通过标准发展”,2018年7月16 ~ 17日举行由阿姆斯特丹大学主办。2研讨会由IUPAC委员会共同主办的出版物和Cheminformatics数据标准(CPCDS),他们的小组委员会Cheminformatics数据标准(SCDS)和CODATA,参加了一些非常有影响力的人。当前的IUPAC秘书长理查德•鹿角飞从新西兰和措词严厉说的基本需要了解我们的下一代科学家希望我们会跟上well-curated的保障,可靠的科学数据可以在一个单一的点击。

如果我们能经常发现美国的总统是想什么在他的浴室在上午7:30,为什么我得到四页的文本搜索时打一个简单的事实就像113号元素的名字吗?我跟我的手机立即告诉我正确答案和naming-but背后的原因来自维基百科,不是IUPAC。在一个深思熟虑的谎言的时代和替代的真理被发表,广泛分布在某种意识形态服务,更重要的是,著名的国际机构了解当前信息分发的技术进步。有系统表现出公平原则承诺让它更简单找到同行评议,真正的科学数据的形式,我们(和我们的it支持系统)所需要的。

利亚的一些想法在图书馆过渡,看面试记录Beilstein开放科学研讨会(2017年5月22 - 24)。3

你能叫你自己公平吗?

2016年3月,马克·d·威尔金森和一系列的合作者一起经常思考怎样我们都应该确保我们提高可访问性的数据生成。4公平是一个潜在的假设同样适用于人类和机器与科学数据的交互。所以,有巨大的强调标准化的元数据,以便机器(如手机)有更多的信息来支持访问不需要人工交互(如筛选四页的文本格式)。这种方法很突破性的,因为之前的计划几乎单独关注改善检索系统供人类直接消费。明确“假阳性”往往被我们忽略几乎没有思维,但是计算机系统发现更加困难,所以需要“美联储”更好的相关信息提供适当的上下文。我喜欢这个开创性的工作的方法是,它很容易理解,这也是不寻常的文档。它增加了一些不错的细节根据含义可发现的,访问,可互操作和可重用(见下文)。Barend蒙斯和同事最近也出版了一本有用的,易读的论文设置公平在上下文。5

公平的原则

的出版4提出技术的定义条款公平意味着科学数据存储库。

可发现的:

F1。(元)数据被分配一个全局唯一的和持续的标识符

F2。数据丰富的描述元数据

F3。元数据清晰、明确地包含了数据的标识符描述

F4。注册(元)数据或索引搜索资源

访问:

A1。(元)数据是可收回的标识符使用标准化的通信协议

A1.1。协议是开放的,自由和普遍实现

A1.2。协议允许一个身份验证和授权过程,在必要时

A2。元数据访问,即使不再可用的数据

可互操作的:

I1。(元)数据使用一个正式的、访问、共享和广泛适用的语言知识表示

I2。(元)数据使用遵循公平原则的词汇表

I3。(元)数据包括限定引用其他(元)数据

可重用:

R1。元(数据)是丰富多元化的准确描述和相关的属性

R1.1。(元)公布的数据是一个清晰的和可访问的数据使用许可

R1.2。(元)数据与详细的出处

R1.3。(元)数据达到随时考虑相关领域社区标准

所以,扫描通过公平的原则它变得更加清晰,为什么国际科学工会正在介入此事。他们“自己的“官方”随时考虑相关领域社区标准”和已经有了流程更新等。

介绍性的讨论后,车间分为两个平行流。一个流处理的公平实现网络化学目前被创造出来。6、7网络将包括建立公平的库资源有用的化学家。这个车间流任务是以下几点:

支持公平数据地址以下主题:

  • 用例和互操作性需求化学数据和信息在整个企业和相关学科
  • 开发工具,研究人员和其他专家用户支持应用程序和使用的标准化学数据
  • 验证和管理机制的化学数据的标准表示

第二个流是更接近光谱学家的心,跑的标题下光谱数据交换标准的互操作性。信息分布式车间之前解释的相关性IUPAC JCAMP-DX套件的建议在这种情况下:

IUPAC JCAMP-DX数据标准已成为一个关键的公平的光谱数据的数据交换。它满足一些关键标准JCAMP-DX出口文件可在几乎所有软件包光谱仪器,它不是ASCII二进制,非专有和有大量数据已经生成。

自从much-documented IUPAC XML合并与ASTM AnIML化学计划标准化工作,没有维修工作在IUPAC标准发生了希望AnIML倡议迎接这一挑战。然而,这项工作由Greg Banik (Bio-Rad)测量使用JCAMP-DX和其他显示有一个清晰的和迫切需要对这些标准的未来作出决定。

的简报指出明确设置现场一些决策…

IUPAC正在审查JCAMP-DX格式的当前状态,包括使用的程度,增强用户希望看到什么,以及在多大程度上生成的文件在“JCAMP-DX格式”坚持JCAMP-DX标准。另一个关键一步公平光谱数据发布标准光谱的发展数据,优化数据使用,跨域存储库重用和互操作。

互操作性标准光谱数据axchange流

所以,明确的职责决定的未来IUPAC JCAMP-DX标准,一工作流程组坐下来回顾当前位置和明确建议的要求。上半年的研讨会是设置以下任务:

JCAMP-DX回顾和未来需求

  • JCAMP /不可知论者数据交换的好处
  • 缺陷的JCAMP格式
  • 要求发展JCAMP(扩展、XML等。)
  • 社区参与
  • 验证需求

有一些非常普通的谈话在participants-contrasting原始需求建立了JCAMP-DX系列的标准与要求一个完全公平的兼容系统。在原来的标准,目的是促进参考光谱数据库的建立提供了一种通用格式,所有仪器供应商可以签署了正确识别所需的最少的元数据和解释(情节)测量数据准确。被允许额外的评论和结构化的元数据,包括引入“私人”标签的信息不是国际标准化但至关重要的特定社区内部使用的格式。彼得Lampen突显了一个事实,标准还包括复杂的和潜在的无损数据压缩方案,满足历史数据文件大小是至关重要的挑战。然而,这些造成了巨大的程序员头痛不熟悉他们独特的概念。这些计划现在不那么相关与巨大的改善网络速度和巨大的可用性数据存储容量。

一个头脑风暴在参与者强调以下几点需要解决:

  • 明确IUPAC位置和IUPAC -致力于支持维护的标准?
  • 标准,可用于设置存储库
  • JCAMP-DX-Yes或没有?
  • JCAMP-DX-Minimal vs全面。正如上面所讨论的,推动数据发布和更大的需求更详细的元数据,可能需要一个更全面的方法。
  • 实际实现开放的科学
  • 数据+印刷品的要求主要研究数据支持期刊出版物?
  • 原创+ Processed-Should只有人类可读的光谱处理需要,定义或原始数据还需要包括什么?
  • 社区方向,外观有点支离破碎communities-IUPAC / JCAMP,同素异形体,NMRedata, IRUG和其他人正在创建独立的解决方案。
  • 一个按钮在哪里?一点击,从实验室到出版,与适当的标准、标识等。
  • 的粒度应该包包含多个光谱的数据,或者多个物质?或者应该是局限于数据为一个特定的分子?或者应该是单一的单分子光谱?作为DOI注册什么?
  • 有一个紧急更新核磁共振,近红外光谱,拉曼
  • 女士不太紧急,因为大多数供应商支持netCDF而不是JCAMP-DX

在此基础上评估重点转移到核磁共振社区需要立即采取行动。在这个领域有重大进展IUPAC以来第一个核磁共振标准推荐发表。同时,当时与AnIML集团合并的努力一个多维NMR标准,JCAMP-DX 6.0,已经几乎准备出版。似乎厂商已经采用了这个草案的形式,但它仍然需要一些工作在NMR覆盖大多数用例。

紧急的改进,包括IUPAC JCAMP-DX NMR

决定优先级最高的前进是核磁共振,讨论围绕着大量的技术和战略考虑这将需要解决之前出版的标准可以提出IUPAC推荐。

  • XML与传统JCAMP(增量扩展当前的格式将破坏性最小;转换为XML很颠覆性)
  • 新的元数据需求(关注JCAMP-DX规范化数据模型,而不是一个特定的格式)
  • 公平实现元数据
  • 新的实验技术,例如。n维核磁共振,不连续数据(可能不是很容易实现一些功能使用当前数据模型,例如,n维核磁共振可以容易实现XML)
  • 同步的JCAMP实验技术
  • 自有品牌方面需要/可以标准(在适当的地方,重用标签,定义,看看描述从其他社区,例如同素异形体,NMRedata等等)。
  • 需要一个应用程序编程接口(API)来帮助实现
  • 生(FID) +光谱:NMR社区更喜欢中存储的数据支撑材形式和再加工光谱在开放,但这是一个问题saearchable参考数据库和出版物的数据都是光谱rarher支撑材。

看来相当多的紧急工作需要补上这么多年当希望AnIML将提供必要的步骤。因此,几个项目定义这个尽快移动。

项目组1:关注JCAMP-DX NMR数据扩展

  • 第一阶段将快速调查的主要核磁共振供应商完全与当前JCAMP-DX记录他们的问题,和他们的兴趣支持JCAMP-DX努力更新。
  • 他们也负责评估水平的更新对NMR JCAMP-DX包括2 d NMR规范草案版本6.0和标准化的建议私人标签。
  • 项目建议书将为第二阶段,开发重点提供新的核磁共振推荐JCAMP-DX捕获在第一阶段实施规范。

项目组2:关注数据的元数据发布和物品FAIRify数据可以被认为是重要的

这包括诸如:

  • ORCID
  • 组织ID
  • InCHI
  • DOI的数据
  • DOI的相关文章,如果有的话
  • 协会结构的光谱特性,如NMRedata
  • 资金信息
  • 仪器ID
  • 老板
  • 许可证信息

项目组3:专注于工具和工作流

  • 开发一个验证器基础上运行旧的经验JCAMPCHECK和DXCHECK项目。验证应在不同的层次:
    • 验证器级别0:检查格式符合标准吗?
    • 验证器级别1:最低要求数据吗?
    • 验证器级别2:内容科学合理吗?
  • 可视化
  • 出口从实验室(仪器或民族解放军)库或出版商

项目组3还需要咨询并提供建议是否IUPAC IUPAC开发这些工具还是给第三方工具的认可吗?

总结

所以,我们有一个绿灯继续经过多年的停滞发展…我们所有人面临的一大挑战是交付到这个快速变化的环境!

引用

  1. A.N.戴维斯,d . Martinsen H.S. Rzepa, c .罗曼·a . Barba f . Seoane Dominguez和c . Cobas简化光谱补充数据收集,Spectrosc。bdapp官方下载安卓版欧洲29 (4),6 - 8 (2017)。http://bit.ly/2v6JeVy
  2. https://iupac.org/event/supporting-fair-exchange-chemical-data-standards-development/
  3. Beilstein电视,图书馆转型http://www.beilstein.tv/video/libraries-in-transformation/
  4. 威尔金森医学博士et al。,“公平科学数据管理和管理指导原则”,科学。数据160018 (2016)。doi:https://doi.org/10.1038/sdata.2016.18
  5. b .隆起,c . Neylon j . Velterop m . Dumontier Michelf, L.O.B. da Silva桑托斯和医学博士威尔金森,“阴,越来越公平;回顾公平数据指导原则对欧洲开放科学云”,bdapp官方下载安卓版通知。服务公司。37岁的49-56 (2017)。doi:https://doi.org/10.3233/isu - 170824
  6. 公平的,实现网络https://www.go-fair.org/implementation-networks/
  7. 公平的,公平的原则https://www.go-fair.org/fair-principles/
本文率
平均:5 (2票)
技术:
Baidu
map