简化分子线性输入规范

✍ dations ◷ 2025-09-08 17:13:14 #化学命名法,化学信息学

简化分子线性输入规范(英语:Simplified molecular input line entry specification,简称SMILES),是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。

由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。

SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。

典范SMILES保证每个化学分子只有一个SMILES表达式。典范SMILES常用于分子数据库的索引。

异构SMILES是指扩展的,可以表示同位素、手性和双键结构的SMILES版本。它的一个显著特征是可以精确地说明局部手性。

双键两侧的结构分别用符号/和\表示,例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧。
而F/C=C\F表示顺二氟乙烯(关于结构的规范表达。就是说不管内部原子的编码顺序如何,通过这种算法总可以得到关于化合物规范的、无歧义的、唯一的描述(化学结构表达的唯一性,可参见国际化合物标识)。

其他著名的线性记法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近国际纯粹与应用化学联合会推荐国际化合物标识作为标准的分子式表达式。

然而普遍认为,SMILES与InChI相比更具有(对人来说的)可读性;而且很多软件都支持SMILES,其中不少软件都具有图论等方面的理论基础。

相关

  • 肠道菌群肠道菌群(Gut flora、Gut microbiota或gastrointestinal microbiota)指在人类及人类以外动物(包括昆虫)的消化道内生存的微生物复杂群落。肠道宏基因组(metagenome)是肠道微生物群
  • 单细胞生物可以根据构成的细胞数目分为单细胞生物和多细胞生物。单细胞生物只由单个细胞组成,而且经常会聚集成为细胞集落。单细胞生物能独立完成新陈代谢及繁殖等活动。地球上最早
  • 谷物谷物主要指禾本科粮食作物及其种子,包括大米、小麦、玉米、小米以及其他杂谷,如高粱、野米、燕麦、薏仁米等,其所含营养物质主要为糖类,主要是淀粉,其次是蛋白质,是许多地区人民的
  • 火山口湖国家公园火山口湖国家公园(英语:Crater Lake National Park)或克雷特湖国家公园是位于美国俄勒冈州南部的一个国家公园。火山口湖国家公园是俄勒冈州内唯一的一个国家公园。火山口湖国
  • 剩磁剩磁(Remanence)符号为Br,是指磁体经磁化至饱和以后,撤去外磁场,在原来外磁场方向上仍能保持一定的磁化强度。剩磁的极限值为饱和磁化强度。永磁材料的剩磁主要受材料中各个晶粒
  • 茄子茄子(学名:Solanum melongena),福建人称为红菜,吴越人沿用宋代叫法称为落苏,广东人称为矮瓜、茄瓜,客家人称之为吊菜,是茄科茄属一年生草本植物,热带为多年生。其结出的果实可食用,颜
  • 僧伽罗语僧伽罗语(සිංහල),是斯里兰卡的官方语言之一。是占斯里兰卡大多数人口的僧伽罗人的语言;使用人口大约一千九百万。从1956年开始,僧伽罗语及泰米尔语同时都是《斯里兰卡宪法》
  • 萨迪什·达万航天中心坐标:13°43′N 80°13′E / 13.717°N 80.217°E / 13.717; 80.217萨迪什·达万航天中心(Satish Dhawan Space Centre,缩写为SDSC)印度的主要航天发射场。印度空间研究组织(ISRO
  • 丹·科茨丹尼尔·雷·“丹”·科茨(英语:Daniel Ray "Dan" Coats;1943年5月16日-),是一位美国共和党政治人物,自1989年至1999年与2011年至今的印第安纳州美国参议院议员。2015年3月24日,科茨
  • 竞合竞合可以指: