数据科学

✍ dations ◷ 2025-11-16 08:43:44 #数据科学
数据科学(英语:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。 数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助。1960年代,Peter Naur 就首次提议要用“数据科学(data science、Datalogy)”来替代“计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。1997年11月,吴建福 发表了题为“统计=数据科学?”的就任演讲, 因为他被任命为密歇根大学的 H. C.卡弗教授。 在这次演讲中,他将统计工作描述为数据收集、数据建模和分析以及决策制定的三部曲。 在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,而统计学家则应重命名为数据科学家。 后来,他发表了题为“统计=数据科学?”的演讲,作为他1998年的首个 P. C. 马哈拉诺比斯纪念演讲。 这些讲座是为了纪念印度科学家、统计学家和印度统计学院 (英语)创始人P. C. 马哈拉诺比斯 (英语)。2001年,William S. Cleveland 提议将其设立为一个新的学科,吸收“计算在数据方面获取的进展”作为统计学的延伸。《Data Science Journal》及《The Journal of Data Science》分别于2002年与2003年发行;2005年9月,美国国家科学基金会发表了《长存的数字数据收集:使21世纪的研究与教育成为可能》,文中将数据科学家定义为“信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数字数据收集的成功管理至关重要。” 2008年 Jeff Hamerbatcher 与 DJ Patil circa 分别在 Facebook、LinkedIn 领导全球第一支数据科学团队,至此数据科学越来越被广泛流行,并应用到公共卫生、市场、金融、社会等各个领域。数据科学家这个职位的头衔则是1997年吴建福的报告 "Statistics = Data Science?"中首次提及的,他认为数据科学家就是能够从大型数据集中析取出数据,并进行统计推断的统计学家。2009 年 1 月,数字化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky 从中了解到“数据科学家”这个词,认为该词是自己所从事工作的最好描述。2012年,数据科学家被《哈佛商业评论》称为《二十一世纪最性感的职业》后,数据科学逐渐成为一个时髦术语(英语:Buzzword)。数据科学家在美欧的需求巨大,麦肯锡公司宣布全世界上此职业人才短缺超过二十万工人。《The Data Incubator》国际企业,在硅谷纽约成立,提供国际大数据和数据科学培训服务。

相关

  • 钩虫症钩虫症(ancylostomiasis)是一种由钩虫属寄生虫引起的病变。钩虫病又称为矿工贫血病,隧道病,砖瓦贫血症和埃及黄化病种等。视乎致病物种,不同物种所引起的病征及病况或有不同。 但
  • 科技美国科技美国的科学技术一直以强大在世界上著称,人类史上很多重要的发明,包括白炽灯、轧棉机、通用零件、生产线等都是源自美国,美国第一个研究出了原子弹,在冷战期间实行阿波罗
  • 高收入经济体高收入经济体(high-income economy),根据世界银行的定义,使用图表集法计算的人均国民总收入超过某个标准的经济体,称为高收入经济体。此标准在2018年为12,355美元。“高收入经济
  • 四环霉素四环霉素(英语:Tetracycline,/ˌtɛtrəˈsaɪkliːn/,INN),又称四环素,一种聚酮类广谱抗生素药物的泛称,这类药物由链霉菌属放线菌门细菌所产生,基本化学结构均由四个环接合而成,可用
  • 睫状体睫状体是眼球壁葡萄膜的中部环形增厚部分,宽约6毫米,通过晶状体悬韧带与晶状体相连。内表面有许多突出并呈放射状排列的皱褶,外表面有睫状肌(平滑肌),在睫状肌和晶状体之间有透
  • 肋软骨肋骨(拉丁语Costa,复数Costae,形容词costalis)是胸腔中枝状的骨,背起于脊柱胸部。是肋的组成部分,肋包括肋骨和肋软骨。一种正常的畸变为叉状肋骨。每条肋由肋骨(Os costale)和肋软
  • GPnotebook家庭医生笔记(英语:GPnotebook)是英国为家庭医生(GP)所建的医学数据库。它是一本线上医学百科全书,提供全球临床医师立即的参考资源。家庭医生笔记数据库内建有超过三万篇资料页面
  • 卡尔曼综合征卡尔曼综合征(英语:Kallmann syndrome)是一种罕见的遗传性疾病,其特点患者是无法进入青春期或青春期发育不完全。该疾病也伴随着嗅觉丧失或嗅觉减退。此种疾病男女皆可发病,但多
  • 前置词前置词(preposition)在文法里是一种介词或助词,其作用为建立受词(多半是一个名词词组)与句子中其他部分的关系,通常用来表示位置或时间。
  • 梅赫尔格尔梅赫尔格尔(Mehrgarh)位在今日巴基斯坦的俾路支省,是最重要的新石器时代考古地点之一,年代从公元前7000年到公元前2500年,且有着南亚发现过最早的农耕(小麦、大麦)及畜牧(牛、山羊、