数据科学

✍ dations ◷ 2025-07-26 06:59:46 #数据科学
数据科学(英语:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。 数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助。1960年代,Peter Naur 就首次提议要用“数据科学(data science、Datalogy)”来替代“计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。1997年11月,吴建福 发表了题为“统计=数据科学?”的就任演讲, 因为他被任命为密歇根大学的 H. C.卡弗教授。 在这次演讲中,他将统计工作描述为数据收集、数据建模和分析以及决策制定的三部曲。 在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,而统计学家则应重命名为数据科学家。 后来,他发表了题为“统计=数据科学?”的演讲,作为他1998年的首个 P. C. 马哈拉诺比斯纪念演讲。 这些讲座是为了纪念印度科学家、统计学家和印度统计学院 (英语)创始人P. C. 马哈拉诺比斯 (英语)。2001年,William S. Cleveland 提议将其设立为一个新的学科,吸收“计算在数据方面获取的进展”作为统计学的延伸。《Data Science Journal》及《The Journal of Data Science》分别于2002年与2003年发行;2005年9月,美国国家科学基金会发表了《长存的数字数据收集:使21世纪的研究与教育成为可能》,文中将数据科学家定义为“信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数字数据收集的成功管理至关重要。” 2008年 Jeff Hamerbatcher 与 DJ Patil circa 分别在 Facebook、LinkedIn 领导全球第一支数据科学团队,至此数据科学越来越被广泛流行,并应用到公共卫生、市场、金融、社会等各个领域。数据科学家这个职位的头衔则是1997年吴建福的报告 "Statistics = Data Science?"中首次提及的,他认为数据科学家就是能够从大型数据集中析取出数据,并进行统计推断的统计学家。2009 年 1 月,数字化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky 从中了解到“数据科学家”这个词,认为该词是自己所从事工作的最好描述。2012年,数据科学家被《哈佛商业评论》称为《二十一世纪最性感的职业》后,数据科学逐渐成为一个时髦术语(英语:Buzzword)。数据科学家在美欧的需求巨大,麦肯锡公司宣布全世界上此职业人才短缺超过二十万工人。《The Data Incubator》国际企业,在硅谷纽约成立,提供国际大数据和数据科学培训服务。

相关

  • 咳嗽药止咳药是指治疗咳嗽的药品,通常为片状(亦有含化的)、溶液和混悬液。部分止咳水含有可待因或麻黄碱,过量服用会使人产生欣快感,故被滥用者称为摇头水),泛指用于止咳的所有药水,包括医
  • 青霉烷青霉烷(Penam)是β-内酰胺类抗生素的下属分类,其主炼为一β-内酰胺环接上饱和的五元环,而该五元环内有一个硫。 青霉素就是该分类的一员,该分类的称呼也是由此而来。羧基青霉素
  • 嗜酸性粒细胞增多症嗜酸性粒细胞增多症是一种疾病过程其特点是血液中的嗜酸性粒细胞计数持续性地升高(多于1500嗜酸性粒细胞/立方毫米),没有明显的病因。嗜酸性粒细胞增多症有两种形式:心内膜纤维
  • 排气再循环又称废气再循环(Exhaust Gas Recirculation)乃汽车用小型内燃机在燃烧后将排出气体的一部分导入吸气侧使其再度吸气的技术(手法或方法),取其每个英语单字的字首“EGR”为通称,主要
  • 马拿瓜马那瓜(西班牙语:Managua)是尼加拉瓜的首都及第一大城市,也是中美洲地区第二大城市。位于尼加拉瓜的西部以及尼加拉瓜第二大湖-马那瓜湖的沿岸。该城在1855年被订为尼加拉瓜的首
  • 学科这是一个学科的列表。学科是在大学教学(教育)与研究的知识分科。学科是被发表研究和学术杂志、学会和系所所定义及承认的。领域通常有子领域或分科,而其之间的分界是随便且模
  • 5号染色体人类的5号染色体是23对染色体的其中之一,正常状况下每个细胞拥有两条。此染色体含有大约181百万个碱基对,占细胞内所有DNA将近6%。其中有900到1300个基因,依预测方式而有所不同
  • 立陶宛立陶宛国家图书馆,正式称作马尔蒂纳斯·马日维达斯立陶宛国家图书馆(立陶宛语:Lietuvos nacionalinė Martyno Mažvydo biblioteka),位于立陶宛首都维尔纽斯,为一国家级文化机构,
  • 超音段成分超音段音位(suprasegmental、超音段成分)是言语分析中除音素之外的的语音现象。言语中有大量特征倾向构成超越单一音段的模式,并且不受音段目标限制独立变化,其中主要有音高、响
  • 麻沸散麻沸散是中国古代发明用于外科手术的麻醉药,由华陀创制,是中国最早的麻醉剂。公元2世纪中国已使用麻沸散为患者全身麻痹做开腹手术。据《后汉书·华佗传》载:“若疾发结于内,针