SMILES

✍ dations ◷ 2024-07-03 00:34:53 #SMILES
简化分子线性输入规范(英语:Simplified molecular input line entry specification,简称SMILES),是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。典范SMILES保证每个化学分子只有一个SMILES表达式。典范SMILES常用于分子数据库的索引。异构SMILES是指扩展的,可以表示同位素、手性和双键结构的SMILES版本。它的一个显著特征是可以精确地说明局部手性。双键两侧的结构分别用符号/和表示,例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧。而F/C=CF表示顺二氟乙烯(),它的两个氟原子位于双键的同一侧。手性碳原子的情况用 @ 或 @@ 标明。例如,L-丙氨酸表示为 N(C)C(=O)O,标示符 @@ 表明,从氮原子 (N) 处沿着连接氮原子和手性中心的碳原子的键看去, 取代基序列——氢原子 (H), 甲基 (C) 和羧基 (C(=O)O) ——按顺时针出现。 D-丙氨酸则表示为 N(C)C(=O)O, @ 即意为逆时针。取代基列出的顺序在这种情况下显得非常重要,D-丙氨酸还可以表示为 N(C(=O)O)C。表示同位素时将质量数写在元素符号前面。如氘代氯仿为 C(Cl)(Cl)Cl ,苯中一个碳原子是碳-14时表示为 1ccccc1。SMARTS是SMILES基础之上的改进版。SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。这种搜索的机理是先通过输入的SMILES式重构化学式,再搜索子图的同形;而不是直接通过SMILES式的对比完成的。USMILES(有时成为广义SMILES),这种“Unique SMILES”是日光化学信息系统有限公司关于结构的规范表达。就是说不管内部原子的编码顺序如何,通过这种算法总可以得到关于化合物规范的、无歧义的、唯一的描述(化学结构表达的唯一性,可参见国际化合物标识)。其他著名的线性记法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近国际纯粹与应用化学联合会推荐国际化合物标识作为标准的分子式表达式。然而普遍认为,SMILES与InChI相比更具有(对人来说的)可读性;而且很多软件都支持SMILES,其中不少软件都具有图论等方面的理论基础。

相关

  • 多西环素-5,10,11,12a-tetrahydroxy-6-methyl- 4a,5,5a,6-tetrahydro-4H-tetracene-1,3,12-trione多西环素(其国际非专利药品名称为“Doxycycline”)也称为“强力霉素”“伟霸霉素”
  • 神经生理学异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 输尿管炎输尿管炎(Ureteritis)指涉及炎症的输尿管医疗病症。其中的一种病症形式被称为"囊性输尿管炎"(ureteritis cystica)。嗜酸粒细胞(Eosinophilic)输尿管炎的病症形式的存在也已
  • 坏血病坏血病(拉丁语:Scorbutus,英语:Scurvy)又称为坏血症、水手病,是一种因缺乏维生素C所引起的疾病。维生素C主要参与人体内胶原的合成,其化学名称是抗坏血酸,源自坏血症的拉丁名scorbut
  • 子实层子实层(hymenium),是子囊菌门与担子菌门真菌子实层体上的构造。子实体中,最内侧的组织为菌髓,其外为子实下层(subhymenium),最外侧即为子实层。子实层的部分细胞可发育成担子(英语:bas
  • 蛋白质序列蛋白质一级结构(英语:Protein primary structure)是肽或蛋白质中氨基酸的线性序列。按照惯例,蛋白质的一级结构被报道从氨基末端(N)端到羧基末端(C)端。蛋白质生物合成最通常由细胞
  • 右旋兰索拉唑右旋兰索拉唑(dexlansoprazole、INN,商品名 Kapidex,Dexilant、右兰索拉唑、埃索美拉唑镁,中文商标名:得喜胃通 60毫克/缓释胶囊)是一种质子泵抑制剂(PPI)。由日本武田药品销售,可由
  • 委内瑞拉马脑炎病毒委内瑞拉马脑炎病毒 (英文:Venezuelan equine encephalitis,简称:VEE)是一种感染马类的病毒,通常分布于南美洲。最早在1936年于委内瑞拉发现,并因此被命名为委内瑞拉马脑炎病毒。在
  • 流行性乙型脑炎流行性乙型脑炎(英语:Japanese encephalitis,港澳台译为日本脑炎),中国大陆简称乙脑,是由乙型脑炎病毒(英语:Japanese encephalitis virus)(JEV)导致的脑实质炎症,为主要病理改变的急性
  • 囊泡虫囊泡虫总门(学名:Alveolata)是一大类原生生物.囊泡虫类可分为4个门, 在形态上具有非常大的多样性,但根据细胞内的超微结构与基因具有密切亲缘关系:帕金虫属(Perkinsus)可能属于