化学数据库

✍ dations ◷ 2025-11-26 17:59:07 #计算化学,化学信息学

化学数据库是为记录化学信息而专门设计的数据库。这些信息包括了物质的分子结构、晶体结构、谱学信息、相关反应与合成方法,以及化学热力学性质数据等。

一般来说,用二维键线式来描述分子结构,对大多数小分子而言是较为常见的方法。尽管这种表述方法对化学家们来说简单明了,却不适合于在数据库中的存储和搜索算法的编写。因此在数据库中小分子(在药物设计领域也常称为配体)通常以将分子中的原子及其键连列表的方式描述,而大分子如蛋白质等,则常用氨基酸组装单元序列等更紧凑的方式表示。

化学文献数据库的目的是将化学物质与相关文献——如科学论文或专利——关联起来。此类数据库的典型代表如化学文摘社的STN和SciFinder。许多专注于物质表征的数据库都提供了文献链接。

晶体学数据库主要提供物质的X射线衍射数据。这些数据反映了物质的结构信息。最典型的代表是蛋白质资料库和剑桥晶体学数据库。

核磁共振谱数据库提供物质的核磁共振波谱信息。这类数据库一般也提供物质的其他谱学信息,如傅立叶变换红外吸收光谱和质谱等。

大多数数据库所记录的都是稳态分子的信息,但也有一些反应数据库,着重记录反应中瞬间产生的亚稳态分子或中间体。这类反应数据库一般还会提供反应前驱物、产物和反应机理的信息。

热物理学性质包括以下方面:

在数字化的化学数据库中,分子结构一般有两种表示方法,包括:

化学研究者在搜索某一物质时,可以不必输入整个分子式,而只搜索其结构的一部分,或其IUPAC命名法名称的一部分。这种亚结构搜索功能,正是化学数据库与一般数据库最大的区别之一。这种搜索是基于子图同构问题实现的,而这一问题也在图论中被广泛研究。一般来说这类搜索具有O (3)或O (4)的时间复杂性,其中n是涉及原子的数目。

在一定的空间限制条件下,搜索物质特定的三维构象,也是化学数据库常需要实现的功能之一(尤其是在药物设计领域)。这样的搜索相当消耗资源,因而人们也设计了多种近似方法来加以解决。

分子的所有性质都可以拆分为具体的物理/化学性质或药学性质,这些性质被称作描述单元。最重要的描述单元当然是化合物名,在这方面,多年来已发展起多种接近标准化的命名方法,从而得以减少含义不清的命名或一物多名现象。其中,IUPAC名是一个很好的选择,不仅对人而言直接可读,从计算机角度也提供了独一无二的字符串。不过,对大分子而言,IUPAC名就显得过分冗长了。至于化合物的俗名,则难免受到数词同音或数词同义的干扰,不适合作为搜索关键词。另一方面,分子的物理/化学描述单元,诸如分子量、(部分)电荷、溶解度等等,几乎可以直接从分子结构计算出来,而药学描述单元则一般能从多元统计分析或实验(药物筛选、生物检定法等)结果中获得。所有这些描述单元都和分子的表达式被储存在一起。

对于化学相似性,并没有统一的定义。不过,仍然可以将化学相似性从应用角度进行定义,比如描述为两种分子在描述单元空间上距离的倒数。例如,如果两种分子的分子量差距(比之其他分子对)较小,那么就可以认为这两种分子较为相似。多种衡量方式可以组合起来,产生多变量的距离度量。根据三角不等式的成立与否,距离度量还可以分为欧几里得度量和非欧几里得度量。通过进行最大共同子图同构问题(MCS)基础上的亚结构搜索 ,来进行距离度量和化学相似性评估的方法也很常见。MCS也被用于药物筛选,即尝试与现有药物具有共同亚结构的不同分子 。

数据库中的化学品根据其相似性被归入不同的群组中,对于属性繁多的化学品,既可采用分级分类方法,又可采用不分级的分类方法。而这些化学品的性质则可能通过经验或计算机计算得到。最为广泛应用的分类方法是Jarvis-Patrick算法。

另外,在面向药学应用的化学数据库中,相似性通常被定义为化合物的生物效应。后者通常可以由分子的物理/化学性质,应用定量构效关系半自动地得到。

记录化合物独特性信息的数据库被称为化学品登录系统。这类系统通常被用于化合物的索引化,专利注册以及工业数据库中。物质登录系统一般对化合物在数据库中的唯一表达有强制性要求。一般来说,这样的唯一表达是所谓的“正则”字符串,例如“正则SMILES”。有些化学品登录系统,如CAS则利用计算哈希的方法达到相同的目的。化学品登录系统与一般化学数据库的关键区别在于,前者能够准确地区分一种物质究竟是已知,未知抑或部分已知。譬如说,一般的化学数据库中可能记录了一个分子,但其立体化学信息则付诸阙如,而在化学品登录系统中,登录者将会被要求提供关于分子构象的准确信息——构象已知或未知,是否是混合物乃至外消旋体,等。每一种不同的情形在化学品登录系统中都作为一个单独的记录。化学品登录系统也对分子信息进行一些前处理,避免不重要的差别(如不同的卤离子)产生影响。这类系统的一个典型例子是化学文摘注册系统。参见CAS号。

相关

  • 巡洋舰巡洋舰(英语:Cruiser)指在排水量、火力、装甲防护等方面仅次于战列舰的大型水面舰艇,拥有同时对付多个作战目标的能力,以及能胜任多种任务的多样性。历史上,巡洋舰由于吨位大、火
  • 雨湖区雨湖区为湖南省湘潭市辖区之一,位于湘潭城区西部即湘江以西地区,为湘潭传统商业区。地理上雨湖区西部、南部与湘潭县接壤北部与长沙市岳麓区、长沙市宁乡县为邻,东面隔湘江与岳
  • 潘哈拉潘哈拉(Panhala),是印度马哈拉施特拉邦Kolhapur县的一个城镇。总人口3450(2001年)。该地2001年总人口3450人,其中男性1975人,女性1475人;0—6岁人口360人,其中男194人,女166人;识字率82
  • 无相颂无相颂,是中国古典哲学用词,最早出自古代汉语佛学。在佛学属于名相类。名相是佛教语:耳可闻者曰名,眼可见者曰相。“无相”的涵义是,佛法强调不执着于佛法的外在表相,因为佛家认为
  • 希罗尼穆斯·莫尔金能否忘掉莫尔茜·哈姆比而寻找到真正的幸福么希罗尼穆斯·莫尔金能否忘掉莫尔茜·哈姆比而寻找到真正的幸福么(英语:),1969年英国音乐电影,由安东尼·纽利(英语:Anthony Newley)执导并主演。影片摄制于马耳他,布景之一卢登·圣尔
  • 维克托·佩列温维克托·奥列戈维奇·佩列温(俄语:Виктор Олегович Пелевин,1962年11月22日-生于莫斯科)是俄罗斯后现代派小说家。他是当今俄罗斯文坛最突出,最具影响力的
  • 约翰·施耐德-阿曼约翰·尼古拉斯·施奈德-阿曼(德语:Johann Niklaus Schneider-Ammann;1952年2月18日-),是一名瑞士政治人物、瑞士自由民主党党员。施奈德-阿曼是伯恩州苏米斯瓦尔德一名兽医的儿子
  • 李维斗李维斗(1964年-),汉族,中华人民共和国政治人物、第十一届全国政协委员。担任一汽大众集团董事、一汽富奥江森集团公司董事。2008年,当选第十一届全国政协委员,代表科学技术界,分入第
  • 侯斌侯斌(1975年-),中国黑龙江佳木斯人,中国男子田径运动员、国际残奥委会残奥形象大使。在9岁时侯斌因意外失去左腿,1993年参加专业跳高训练。1996年亚特兰大残奥会上,他以1米92的成绩
  • 噶桑扎西嘉措噶桑扎西嘉措(藏语:.mw-parser-output .uchen{font-family:"Qomolangma-Dunhuang","Qomolangma-Uchen Sarchen","Qomolangma-Uchen Sarchung","Qomolangma-Uchen Suring","Qom