亨利Rzepa一个和安东尼·n·戴维斯b
一个化学系、分子科学研究中心,伦敦帝国理工学院,白色城市校园,木巷,伦敦W12 OBZ,英国
b国家电力、可持续环境研究中心、学院计算、工程和科学,英国南威尔士大学
DOI:https://doi.org/10.1255/sew.2022.a10
©2022年作者
基于知识共享发布的执照
伊恩·迈克尔挑战我们在公开出版的主题:所有这些关注可发现的数据,能找到吗?上得到更多的数据我们都可以使用要求我们重新思考我们自动做当我们产生新的光谱可能感兴趣的家伙光谱学家。我们离开他们腐烂在乐器的电脑,选择“最佳最好的”降落在同行评议的出版物在未来一段时间年吗?还是我们把程序,确保我们的工作,我们的学生工作,将提供给科学界永远?亨利Rzepa引入了一个可爱的教育光谱和相关元数据工作流到伦敦帝国理工学院。这不仅保证了学生的光谱数据和相关的元数据是正确记录,也可用以公平的方式对整个社区。它还可以向学生介绍整个概念的最佳实践公平数据处理和持续的和独特的标识符,包括登记学生接受自己的终身独特出版ORCiD ID。
帝国理工学院如何得出公正的大学生发表的数据?
2012年,ORCiD组织发动了研究员ID服务,不久开始鼓励研究机构促进概念的研究人员。在帝国理工学院,辩论开始定义的范围应该鼓励那些登记ORCiD。一个明智的,如果预测,计划是首先最资深研究人员,经常带领大群和逐步工作级别较低的成员。一个特定的观点,最终不被采用,开始研究光谱的另一端与本科学生,因为他们毕竟是未来的研究!后一种选择继续产生共鸣,然而,当设计一个新的实验室课程第一年在帝国学院化学系本科生第一道菜成立于2018年,招收这些学生的机会ORCiD作为课程的一部分被(见图1,步骤1)。
图1所示。学生介绍持久标识符通过ORCiD ID注册和光谱数据生成和分析他们的工作。
这是由于课程的设计,说明实验室化学合成的要求每个学生生成唯一目标分子;更传统的课程涉及一小部分此前已知的目标,所有的学生。仔细选择反应允许大型组合设计实现两个试剂(酒精和酸)融合在一起形成酯。虽然每个组件是商用,两者的结合将导致一个新的分子。下一个方面的设计就是要求学生记录现在独特的光谱信息和新合成分子,这将包括1H NMR谱(13C过于资源要求分配给本课程)以及一个红外光谱仪测量。就一步之遥,鼓励学生正式发布这个新数据的方式,整个社区的分子科学家可能受益,通过这个出版公平。1这将意味着一个简单的搜索分子由任何人基于其注册元数据(见下文2)是可能的。同样重要的是,公平属性将允许一个程序和无监督机器相同的搜索,在任何所需的规模。访问这些数据,其由其他人重用和互操作性到新的环境是这个公平规范的另一个好处。
而不是选择一个通用的,non-subject Zenodo等特定的存储库这个任务,我们已经进入第二代fairshare注册3库,专门设计的周围丰富的“FAIR-Enabling”元数据4、5和已经被用作一个民族解放军出版目标(电子实验室笔记本)由学生进行计算实验室使用。6、7
基于一个简单的,但在这个阶段,non-ELN协议开发的学生访问,分析然后发布他们的实测光谱数据在这个存储库中。8这个实验现在在第三年和获得的数据可以通过访问存储库集合。9
公平的出版工作流程
额外的工作流程与此相关的例子相当出版的光谱数据如图2所示。目前数据由学生出版由几个不同的步骤,这一过程可以自动化在未来通过引入spectroscopy-based ELN类似于系统用于发布数据在计算化学实验室工作流可以自动生成所需的元数据。半岛综合体育官方APP下载德甲
图2。光谱数据存储库工作流程显示交互DataCite DOI代,ORCiD学生数据的登记和参与课程交付和监控。
元数据模型
因为这是关于公平的核磁共振数据,看看是很有用的元数据记录传授这方面的项目。这可以采取两种形式,媒体类型10数据文件上传的存储库和数据的属性符合DataCite注册模式。属性本身有用的分为一组核心科目的设置。DataCite核心属性相当完善,包括等方面的DOI标识数据记录登记,ORCiD的创造者(s)的数据,标题、描述、所属标识符的形式ROR(研究机构注册),标识符方案(重用)的权利,日期和“RelatedIdentifiers”,可以进一步指向元数据记录的其他“研究对象”是否存在。其他RelatedIdentifiers可以指向父母/子女关系涉及其他集合或数据集,其他的研究对象等相关期刊文章,也许未来的仪器,甚至物理样品标识符。
目前DataCite科目的元数据目前不那么正式和标准化;化学的持续努力实现这一目标11IUPAC正在进行的赞助下,化学标准组织。2016年,一些主题属性如InChI和InChI关键化学标识符包含在这个存储库的元数据集合。4、5这些存储库工作流程产生的分子连接表提交的储户(CDXML文件上面的实例)。一个例子可以使用链接下载记录https://api.datacite.org/application/vnd.datacite.datacite + xml / 10.14469 / hpc / 10176,其中10.14469/10176是DOI分配给数据发布。的例子显示了如何利用它为你尝试以下。
公平的光谱数据的例子:如何找到他们
元数据注册流程导致所谓的聚集元数据存储(MDS)。在这个实例中存储DataCite,选中的登记机关。DataCite提供一个API(应用程序编程接口)搜索商店,他们计划引入一个更人性化的形式。API调用相对人类“可读性”和一些他们记录相关的学生数据出版项目。2他们通常操作通过指定属性中定义的元数据记录和其所需的价值(一个密钥对)和使用布尔逻辑可以结合集中搜索媒体类型值。
1)这个例子是基于使用关键字出现在一个条目的标题或描述:https://commons.datacite.org/?query=titles.title:本科+和+ +和+ +和+实验室合成(NMR +或+光谱)当我们去新闻揭示了五支安打。三个正在讨论相关的课程和两个来自另一个课程。前三个是确定从元数据集合的项目,实际指向“孩子”集合数据集。
2)这些数据集可以通过搜索找到具体三个集合中确定前面的搜索相关的孩子们:https://commons.datacite.org/?query= (relatedIdentifiers.relatedIdentifier: 10.14469 / hpc / 6215 +或者+相关Identifiers.relatedIdentifier: 10.14469 / hpc / 7350 +或者+相关Identifiers.relatedIdentifier: 10.14469 / hpc / 8679) +和+ relatedIdentifiers.relationType: IsPartOf给了79件。
3)搜索采用不同的策略,这是与媒体类型搜索所有数据集与NMR数据,而事实上返回全球聚合组有这些元数据属性:https://commons.datacite.org/?query= (media.media_type:化学/ x-mnova * +或+ media.media_type:化学/ x-jeol-jdf +或+ media.media_type:化学/ x-jcamp-dx +或+(化学/ x-mnpub * +和+ media.media_type:应用程序/ zip))
4)搜索2和3可以组合成一个单一的搜索使用布尔操作符(红色)来验证先前确定的孩子寻找2实际上包含核磁共振数据集:https://commons.datacite.org/?query= ((relatedIdentifiers.relatedIdentifier: 10.14469 / hpc / 6215 +或+ relatedIdentifiers.relatedIdentifier: 10.14469 / hpc / 7350 +或者+ relatedIdentifiers.relatedIdentifier: 10.14469 / hpc / 8679) +和+ relatedIdentifiers.relationType: IsPartOf) +和+ (media.media_type:化学/ x-mnova * +或+ media.media_type:化学/ x-jeol-jdf +或+ media.media_type:化学/ x-jcamp-dx +或+(化学/ x-mnpub * +和+ media.media_type:应用程序/ zip))
5)接下来的搜索展示了寻找一个非常具体的分子利用其InChI字符串,当然这个搜索可以结合其他搜索如果需要使用布尔值:https://commons.datacite.org/?query=subjects.subjectScheme: inchikey +和+ subjects.subject: GTLIMLTYVRBPEP-UHFFFAOYSA-N
6)点击搜索5中作者的名字(Longzheng Cong)会导致页面作者提交的摘要DataCite存储库。https://commons.datacite.org/orcid.org/0000 - 0003 - 2798 - 5367
以上说明仅选择潜在的搜索。这些可以根据需要组合与其他元数据属性如作者(由ORCiD指定),机构(ROR,日报》指定的或特定的期刊文章(DOI指定的前缀)和协会等其他类型的数据计算,或其他类型的光谱红外光谱和晶体结构等。这种可能性是巨大的。半岛综合体育官方APP下载德甲
公平的光谱数据的例子:如何访问和重用它们
跟进的结果,说上面的搜索5,揭示NMR-related文件的集合,在不同光谱的数据或不同表示形式的表达。人类可以选择任何一个文件下载,但然后依赖专门的软件来打开原始数据文件(在本例中加工Mnova Jeol JDF文件或文件)。这通常需要拥有一个软件许可证允许访问计划,这可能会限制访问。
为了解决这个特定问题,进一步的文件已经生成的存储库提供了一个帝国并且免费许可授予访问数据;MNPUB文件。下载MNPUB文件(s)明确授予用户访问的全部功能Mnova程序来处理数据集。这加强了在公平的一个方面;访问不仅仅是关于能够下载数据集,但能够使用它在适当的软件完整信息公开的数据。
然而,公平不仅仅是授予访问的人;机器呢?隐藏在幕后的元数据是下面的声明只:
< relatedIdentifier relatedIdentifierType = " URL " relationType = " HasMetadata " >https://data.hpc.imperial.ac.uk/resolve/?ore=10176< / relatedIdentifier >
这将指定机器如何获得所谓的文件清单的进一步的元数据。这个清单包含信息文件的媒体类型以及如何访问它们,这机器可以利用。
未来
上面清楚亨利的例子详细提供远远超过只是一个光谱数据存储库工作流程。学生的学习从这样一个运动超越了光谱数据的创建。的工作显示了持久标识符的重要性不仅对数据和元数据,而且,通过ORCiD ID,科学界的正式成员身份。
这也锤子家里工作的关键和必要的仔细和策划的元数据创建的重要性,尽可能多的功能说明上面的帮助下实现元数据。重要的是,它还取决于社区协议指定元数据。如前所述,一个IUPAC工作组预计将很快产生关于这些方面的建议。11上面的示例生产概念论证,但在适当的时候将协调与新兴的建议。下一个挑战是鼓励所有数据存储库包含,例如,核磁共振光谱数据也采用这些建议。当这种情况发生时,更丰富的化学元数据允许比上面的更具体的搜索将会启用。
确认
我们感谢埃德·史密斯博士合成实验的设计和实现方面。
引用
- 医学博士威尔金森,m . Dumontier […] b·蒙斯科学。数据3,160018 (2016)。https://doi.org/10.1038/sdata.2016.18
- H.S. Rzepa和s·库恩,化学》杂志。60岁,93 - 103 (2021)。https://doi.org/10.1002/mrc.5186
- FAIRsharing.org:帝国理工学院的研究数据存储库。https://doi.org/10.25504/FAIRsharing.LEtKjT
- j·唐宁,p . Murray-Rust美联社汤奇,p .摩根H.S. Rzepa, f . Cotterill n天M.J.哈维,j .化学。正,国防部。48岁的1571 - 1581 (2008)。https://doi.org/10.1021/ci7004737
- M.J.哈维,a·麦克莱恩和H.S. Rzepa,j . Cheminform。9日,4 (2017)。https://doi.org/10.1186/s13321 - 017 - 0190 - 6
- 新泽西州M.J.哈维,梅森和H.S. Rzepa,j .化学。正无穷。模型。54岁的2627 - 2635 (2014)。https://doi.org/10.1021/ci500302p
- c . Cave-Ayland Bearpark M.J., c .罗曼和H.S. Rzepa,“冠军是HPC和元数据访问门户”,j .开源软。7 (70),3824 (2021)。https://doi.org/10.21105/joss.03824
- H.S. Rzepa,出版NMR研究数据。https://doi.org/10.14469/hpc/6472
- 帝国理工学院的本科综合实验室。帝国理工学院的研究数据存储库。https://doi.org/10.14469/hpc/7349
- H.S. Rzepa, p . Murray-Rust B.J.惠特克,j .化学。正,Comp。科学。38岁的976 - 982 (1998)。https://doi.org/10.1021/ci9803233
- .汉森,d . Jeannerat m·阿奇博尔德布鲁诺,中华民国粉笔,A.N.戴维斯R.J.兰开夏郡,j·朗和H.S. Rzepa,纯粹的达成。化学。在出版社(2022)。https://doi.org/10.1515/pac - 2021 - 2009

亨利Rzepa
亨利Rzepa训练作为实验物理有机化学家,然后花了三年时间学习新兴的计算化学领域与迈克尔·杜瓦在奥斯汀,德克萨斯州。在1977年加入帝国理工学院的工作人员,他的研究成为了关注计算机械化学、核磁共振和chiroptical光谱学和基于互联网的化学信息学,他被授予2012年ACS Skolnik奖。0000-0002-8635-8390
(电子邮件保护)

托尼•戴维斯
托尼·戴维斯是一个长期存在的半岛综合体育官方APP下载德甲光谱学欧洲bdapp官方下载安卓版列编辑器和认可的思想领袖在标准化和法规遵从性在工业和学术营地一英尺。他花了他的大部分工作生活在德国和荷兰,作为首席科学家最近,战略研究小组,测量和分析科学在荷兰阿克苏诺贝尔公司/ BV Nouryon化学物质。强烈主张开放创新的正确使用。0000-0002-3119-4202
(电子邮件保护)com
搜索以上6
纠正一个小声明,点击搜索5中作者的名字(Longzheng Cong)会导致页面作者提交的摘要DataCite库,这是作者提交的任何存储库,ORCID存在的元数据记录由DataCite记录。
标题搜索6。
的标题文本点击搜索5中作者的名字(Longzheng Cong)会导致页面作者提交的摘要DataCite存储库。应该更改为点击搜索5中作者的名字(Longzheng Cong)导致所有作者的总结页面提交任何存储库的元数据与DataCite已经注册。