安东尼戴维斯,a、b彼得Lampenc和罗伯特·兰开夏郡d
一个专家能力,测量和分析科学,Nouryon代芬特尔、荷兰
b国家电力、可持续环境研究中心、学院计算、工程和科学,英国南威尔士大学
cLeibniz-Institut毛皮Analytische Wissenschaften账户,德国多特蒙德
d大学的化学系,西印度群岛,莫娜,Kgn 7日,牙买加
DOI:https://doi.org/10.1255/sew.2019.a1
光谱学家我们倾向于关注光谱。没什么新的,但也许我们需要更加关注周围的信息我们的测量定义的上下文和相关性数据,在许多情况下,基本能够正确显示光谱。我必须承认,有些被忽视的元数据的创建和命运的所有数据处理和迁移工作我们已经进行了多年。有趣是偶尔看到某些谱仪制造商使用# #所有者=字段JCAMP-DX文件声称他们拥有我们创建和诚实的光谱时,我们几乎忽略了这个帮助供应商获得实际的数据迁移符合标准。然而,越来越多的科学家要求上传相关数据与他们的同行评议的论文,公司更好地利用大数据的机器学习工具正变得越来越容易。这意味着它是有意义的元数据测量光谱,它是可能会比最初的创造者的元数据的光谱和几乎肯定的组织创建的数据。在这个世界上,数字版权管理是更重要的是,你真的想离开你的数据的所有权的仪器供应商?
元数据为何如此重要?
去年我们报道从IUPAC / CODATA车间在阿姆斯特丹“支持公平交换的化学数据通过标准发展”。1紧接着是IUPAC正式支持宣言化学去公平实现的网络(下巴)于2019年1月28日。这个化学网络是全球科学网络的一部分,支持科学数据管理的公平的指导原则和管理。
在最初的去年的报告中,我们提到,后续将包括项目组2:关注数据的元数据发布和物品FAIRify数据可以被认为是重要的。研讨会举行题为公平发布指南光谱数据和化学结构2019年3月29 - 30日在美国化学学会年会上在奥兰多,佛罗里达IUPAC扔了一些有趣的挑战和未来的数据标准的工作。原JCAMP-DX格式没有设计运输与供应商无关的仪器测量的所有元数据文件格式。JCAMP-DX核心领域是那些基本正确阅读和解释的数据和接受所有的厂商致力于各种标准的发展。也有许多潜在的标签中定义的标准并不是必要的,但它们的使用并不是由我们控制的。我们知道至少有一个供应商谁开发了JCAMP-DX出口软件使得广泛使用的$ $前缀自有品牌出口所有他们的仪器参数JCAMP-DX文件。这使得供应商完全重现在另一个软件系统的数据集。他们un-documented向外界无法被任何人除了供应商。
从我的法规遵从性经验在监管环境中创建的任何记录下一些记录保留政策或其他,所以讨论是否存储个人立马的元数据作为如果它对自己的生活似乎就毫无意义了。事实上,最初的FDA 21 cfr第11部分指南创建各种各样的质疑的使用JCAMP-DX标准文件格式在这种情况下,因为它不需要存储所有原始的元数据(参见下面的新的指导方法,使它更容易接受JCAMP-DX文件在这个环境中)。
讨论继续自去年以来,它已成为明显增加要求科学家出版研究上传他们的“原始数据”开放的公共存储库或其他造成一些问题当唯一可用的元数据与出版,而不是数据本身。这是好如果你的范围只是局限于定位数据在存储库中从特定的角度发表中引用,但如果你想找到所有的13、光谱测量与仪器500 MHz磁场强度或更好使用氘氯仿为溶剂?
元数据是数据系统的正确运行的关键!
我过度引用引用福尔摩斯,“这是一个资本资料之前错误理论”血字的研究不幸的是打开我,也许现在应该读”,这是一个资本资料之前的错误理论,和相关的特定领域的元数据,确保数据是可发现的,访问,可互操作和可重用”。1、3、4
我们需要考虑什么呢?我最近跟一个系统所有者与广泛部署色谱数据系统(CDS)从一个顶尖的国际供应商。虽然CDS是专业部署、维护和不断更新最新的发布版本,高度专业的外包数据存储提供商,没有参考回客户,决定在某种程度上他们的合同没有备份数据库中的元数据表。我想你们都知道是什么,是的…我不会拼写出来,因为它太痛苦…但是不可避免的发生。主要教训(希望)定期测试灾难恢复的位置!所有的数据可以恢复,但所有的元数据。幸运的是,据我所知这个系统不属于任何类型或法规遵从性的位置。和想所有的时间我已经小心翼翼地称赞色析法有更好的和更可靠的工具处理比我们可怜的光谱学家!
元数据通常被认为是关于数据的信息。元数据表明元数据的损失对于我们科学的操作是至关重要的社会在短中期,但从长远来看元数据可能需要发展随着语境的变化有关。在短期内,能够识别五色谱,六核磁共振光谱和红外光谱的测量作为具体分析问题是至关重要的一部分生成和验证的结果。从长远来看,这些数据集可能成为更大的一部分的基本证据证明使用一种新的药物是安全的。同一数据集的一次审计之后,他们处理的方式可能会被要求证明合规的基础形成为一个组织良好的实验室实践。以这种方式“数据”的信息,使用它可以演变的方式。
最初的都柏林核心
所以,让我们回到历史上一点,看看一个早期的行动规范特定的元数据字段建立秩序的混乱从不同来源获取信息和位置在互联网时代。图1展示了一个早期尝试开始定义元数据可以应用于任何数字或物理对象,如视频、图片、网页、书籍、dvd、艺术品甚至光谱,都柏林核心。4不幸的是爱尔兰的读者,核心命名的原始邀请赛车间由在线计算机调用库的元数据中心(OCLC)和美国国家超级计算应用中心(山)1995年3月1 - 3,在都柏林,俄亥俄州,美国,来解决这个问题从互联网上搜索和检索数据。与会者被图书管理员、档案、人文学者和地理学家会议报告显示,随着标准化专家。这个最初的工作是扩展和各种身体和现在也采用ISO标准ISO 15836 - 1:2017,建立了15个核心元数据元素的跨域资源描述,都柏林核心元数据元素set-Part 2: DCMI属性和类正在等待批准出版前截止ISO / DIS 15836 - 2 2019年到期。
- 主题:主题解决的工作
- 标题:对象的名称
- 作者:的人(s)主要负责对象的知识内容
- 出版者:代理或机构负责提供对象
- OtherAgent:等人(s),编辑和翻译员,谁取得了其他重要知识贡献的工作
- 日期:的出版日期
- ObjectType:对象的类型,比如小说,诗歌,或字典
- 形式:对象的物理表现,比如Postscript文件或Windows可执行文件
- 标识符:字符串或数字用于唯一地标识该对象
- 关系:与其他对象的关系
- 来源:对象,打印或电子,这个对象,如果适用的话
- 语言:语言的知识内容
- 覆盖范围:物体的空间位置和时间期限的特点
图1所示。最初的13都柏林核心元数据元素集。
这将有助于我们的光谱数据存储系统,如果需要我们可以使用原来的“形式”,现在“格式”,元素来指示记录是一个特定的IUPAC JCAMP-DX光谱学数据文件,但是没有在这里帮助或未来研究定位记录,满足上述搜索问题。半岛综合体育官方APP下载德甲
随着这个讨论很值得注意的是一些关键的观察从原来的车间,我们不应忽视…
“…索引是最有用的小型集合在一个给定的域。随着覆盖范围的扩大、索引屈服于大型检索集的问题和问题的交叉学科语义漂移…”
或者通俗地说,就是可能存储在标签脉冲序列从核磁共振光谱或支撑材会导致医生相当头痛。显然需要存在分离技术元数据,有效地分你朝着一个特定的记录在一个特定的系统,显然将改变随着时间的推移,从业务元数据赋予意义的记录在一个特定的纪律或环境。这把我们带回到当前的问题,如何满足需求的开放获取科学数据的存储方式实现公平的要求。幸运的是,有一个清晰的路线管理原都柏林核心作者称之为交叉学科语义漂移的问题。
在可重用的部分是R1.3公平原则。(元)数据达到随时考虑相关领域社区标准。作为一个特定数据记录可能是相关的和共享的跨不同的“社区”就基本元数据使特定数据记录相关社区显然是分开可能是一个相同的元数据术语标准化的一个不同的社区。两组元数据项可以在生成时同样相关和有不同的寿命取决于使用(图2)。
图2。所有相关的元数据记录,但是如果显示明显的冲突域相关性的特定的元数据项不予保留。
GoFair计划有一个很好的部分解释“R1.3。(元)数据满足随时考虑相关领域社区标准”是指在实践中,开辟了道路,我们完善的光谱数据标准融入这样的环境:
“更容易重用数据集,如果他们是相似的:相同类型的数据,数据标准化的方式组织,完善和可持续的文件格式,文档(元数据)后常见的模板和使用常见的词汇。如果社区标准或最佳实践数据归档和共享存在,他们应遵循。例如,许多社区最小信息标准(例如,MIAME MIAPE)。公平数据至少应该满足这些标准。”
元数据的法规遵从性
这就是这场争论变得更加严重,不仅仅是某种奇特的理论运动。你们中的很多人可能读过,美国食品和药物管理局已经打击在制药行业数据的完整性。以至于他们决定发行一个新的指导注意2018年12月在问答的形式来支持企业数据在公司合规。这指导注意帮助用户理解的一些关键基础管理要求制定了所谓的谓词规则…在这种情况下,弥补现行良好生产规范(CGMP)药物,根据需要在21 CFR 210年、211年和212年。5或许有人认为,元数据的保留并不是一个关键组件的总体数据完整性策略指导是非常清楚的:
““元数据”是什么?
元数据是理解数据所需的上下文信息。一个数据值本身毫无意义的没有额外的信息数据。元数据通常被认为是关于数据的数据。元数据是描述结构化信息,解释说,或使它更容易检索、使用、或管理数据。例如,“23”是没有意义的元数据,如单位“毫克”的象征。除此之外,元数据为特定的数据可能包括一个日期/时间戳记录数据获取时,一个用户ID的人进行测试或分析生成的数据,仪器ID用于获取数据,材料状态数据、材料标识号和审计跟踪。
数据应该保持在与所有相关的元数据记录的保存期要求重建CGMP活动(例如,§§211.188和211.194)。数据和元数据之间的关系应该是保存在一个安全的和可跟踪的方式。”
当然,这并不是什么新鲜事,但现在增加的关注数据的完整性是光辉明亮的聚光灯在工业实践和软件解决方案来生成,过程、归档和恢复我们的数据。
有两个其他的指导文件,我想复制在我们结束这篇文章作为精神食粮……
”9。电子版可以用作精确复制品纸或电子记录?
是的。电子版可以作为真实的拷贝纸或电子记录,提供了拷贝保存原始记录的内容和意义,包括所有的元数据要求重建CGMP活动和原始记录的静态或动态特性。”
问题10相等纸和电子记录,探讨了pH值打印出来的米和平衡这可能满足记录保留要求然而,
“10。是接受保留纸打印出来或静态记录而不是原始的电子记录来自独立的计算机实验室仪器,如红外光谱仪器吗?
…然而,电子记录某些类型的实验室instruments-whether独立或networked-are动态,并打印输出或静态记录没有保存动态记录格式是完整的原始记录的一部分。例如,由红外光谱文件(傅里叶变换红外光谱学是动态的,可以再加工。半岛综合体育官方APP下载德甲然而,一个静态的记录或打印输出是固定的,不会满足CGMP要求保留原始记录或真实的副本(§211.180 (d))。同样,如果全谱不是显示在打印输出,污染物可能被排除在外。”
但请去阅读完整的指导所有这些信息放入上下文中。
结论
对我来说这个经验是一个令人惊异的事物。的挑战让供应商之间的数据交换通过厂商中立的标准化一直是人类可读的格式在数据内容部分通过迁移和携带足够的元数据,确保数据可以正确读取和解释在第二个数据系统(会议新的FDA指导解释电子副本需要保留原始记录的内容和意义,其中包括所有的元数据要求重建CGMP活动)。所以,我们的新挑战2019 -讨论IUPAC 50 100年的庆祝活动thIUPAC大会发生从5到2019年7月12日,在巴黎,售价将是决定我们需要作出改进,加上仪器供应商,以满足这些新的元数据的挑战。任何志愿者呢?
引用
1。l . McEwen d Martinsen, r·兰开夏郡,p . Lampen A.N.戴维斯,“光谱数据是公平的吗?”Spectrosc。bdapp官方下载安卓版欧洲30 (4),21 - 24日(2018年)。https://www.半岛综合体育官方APP下bdapp官方下载安卓版载德甲spectroscopyeurope.com/td-column/are-your-spectroscopic-data-fair
2。a .柯南道尔血字的研究。沃德锁(1887)。
3所示。公平的,公平的原则。https://www.go-fair.org/fair-principles/
4所示。http://www.dublincore.org/specifications/dublin-core
5。数据完整性和符合药物CGMP,问题和答案指导产业(2018年12月)。https://www.fda.gov/downloads/drugs/guidances/ucm495891.pdf