数据科学

✍ dations ◷ 2025-10-08 20:17:46 #数据科学
数据科学(英语:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。 数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助。1960年代,Peter Naur 就首次提议要用“数据科学(data science、Datalogy)”来替代“计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。1997年11月,吴建福 发表了题为“统计=数据科学?”的就任演讲, 因为他被任命为密歇根大学的 H. C.卡弗教授。 在这次演讲中,他将统计工作描述为数据收集、数据建模和分析以及决策制定的三部曲。 在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,而统计学家则应重命名为数据科学家。 后来,他发表了题为“统计=数据科学?”的演讲,作为他1998年的首个 P. C. 马哈拉诺比斯纪念演讲。 这些讲座是为了纪念印度科学家、统计学家和印度统计学院 (英语)创始人P. C. 马哈拉诺比斯 (英语)。2001年,William S. Cleveland 提议将其设立为一个新的学科,吸收“计算在数据方面获取的进展”作为统计学的延伸。《Data Science Journal》及《The Journal of Data Science》分别于2002年与2003年发行;2005年9月,美国国家科学基金会发表了《长存的数字数据收集:使21世纪的研究与教育成为可能》,文中将数据科学家定义为“信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数字数据收集的成功管理至关重要。” 2008年 Jeff Hamerbatcher 与 DJ Patil circa 分别在 Facebook、LinkedIn 领导全球第一支数据科学团队,至此数据科学越来越被广泛流行,并应用到公共卫生、市场、金融、社会等各个领域。数据科学家这个职位的头衔则是1997年吴建福的报告 "Statistics = Data Science?"中首次提及的,他认为数据科学家就是能够从大型数据集中析取出数据,并进行统计推断的统计学家。2009 年 1 月,数字化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky 从中了解到“数据科学家”这个词,认为该词是自己所从事工作的最好描述。2012年,数据科学家被《哈佛商业评论》称为《二十一世纪最性感的职业》后,数据科学逐渐成为一个时髦术语(英语:Buzzword)。数据科学家在美欧的需求巨大,麦肯锡公司宣布全世界上此职业人才短缺超过二十万工人。《The Data Incubator》国际企业,在硅谷纽约成立,提供国际大数据和数据科学培训服务。

相关

  • 肥胖肺换气不足综合征肥胖肺换气不足综合症亦称Pickwickian综合症,包括肥胖(BMI>30 kg/m2),睡眠时低氧血症和高碳酸血症,这是由睡眠时的肺换气不足(过度的缓慢或者浅呼吸)造成的。常伴有阻塞性睡眠呼
  • 转座病毒科变换病毒属 Metavirus 漂游病毒属 Errantivirus转座病毒科(Metaviridae)又译作变化病毒科或变换病毒科,是一种拥有反转录聚合酶的病毒,型态为单链RNA。该类病毒主要感染真菌和无
  • μm微米(Micrometer、㎛)是长度单位,符号µm。1微米相当于1米的一百万分之一(10-6,此即为“微”的字义)。此外,在ISO 2955的国际标准中,“u”已经被接纳为一个代替“μ”来代表10-6的国
  • 芳香烃芳香.mw-parser-output ruby>rt,.mw-parser-output ruby>rtc{font-feature-settings:"ruby"1}.mw-parser-output ruby.large{font-size:250%}.mw-parser-output ruby.larger
  • 健康科学医疗卫生科学(又称:医疗科学、健康科学、保健科学)与应用科学息息相关,旨在运用理工及技术之知识,解决与生物健康有关的问题。除了传统的医学外,此类学科还包括护理、公共卫生等学
  • 生物染色剂染色是用于增强显微图像对比度的一项辅助技术。辅以不同类型的显微镜,染色和染料常在生物学和药学领域被用于提高生物组织的可见度。染色常被用于观察大块组织(如肌肉组织和结
  • 音段音素是语言学术语,但其意涵有两种分歧的说法。它可以指:
  • 突厥语族突厥语系(Turkic languages)或突厥语族内部包括40多种语言。突厥语系语言简称突厥语,突厥语的使用人口约1.65亿至2亿人,主要分布在欧亚大陆上。东起中国东北,西至东欧,北自西伯利
  • 叶尼塞语系叶尼塞语系(Yeniseic 或 Yenisei-Ostyak)是分布在西伯利亚中部叶尼塞河流域的一个语族。包括7种语言:其中的Yug、Pumpokol、Arin和Assan早在18世纪消亡了,我们对这些语言所知甚
  • 配位化学配位化合物(英语:coordination complex),简称配合物,又称为络合物、络鹽、复合物,包含由中心原子或离子与几个配体分子或离子以配位键相结合而形成的复杂分子或离子,通常称为“配位