文档分类

✍ dations ◷ 2025-07-12 19:14:47 #文档分类

文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。

需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。

可以根据主题(英语:Subject (documents))来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。

基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的。一般来说,在图书馆中,当一个文档被划分到某个类别时,这个文档中至少要有20%的内容是关于这个类的。在自动分类的领域,这个标准可能是一些给定单词在文档中出现的频率。

面向请求的分类(或者索引) 是通过向用户获得请求后,根据用户的请求将文档进行分类。一个形象的比喻,好比分类器会问自己:“我应该通过哪种特征找到这些文档呢”,或者“通过哪些本质特征能够让我找出我身边相关的文档呢?”

面向请求的分类主要的适用对象是一个特定的用户或群体。比方说,一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户。有一种更好的理解面向请求的分类,就是把它理解成为“基于策略的分类”:基于特殊群体的请求,通过一定的想法和策略进行分类,从而达到目的。在这种方式下,分类方式就不一定是100%基于用户研究的领域了,可以通过一些共性的策略,加以组合或修改,来实现用户的请求。只有从用户和应用中获得的经验使用了,面向请求的分类才可以被认为是一种基于用户的实现方法。

文档自动分类的任务可以分为三类:监督式学习的文档分类,这需要人工反馈数据的一些外在机制。非监督式学习的文档分类(也被称作文档聚类),这类任务完全不依靠外在人工机制。和半监督式学习的文档分类,是前两类的结合, 它其中有一部分的文档是由人工标注的,这有一些相关方面的具有许可证的软件。

自动的文档分类工具如下:

分类工具被应用于如下:

相关

  • 盘菌亚门盘菌亚门是子囊菌门的一亚门。属于大型子囊菌类,且包含了几乎所有可以裸眼观见成熟个体的子囊菌类,(例外: Neolecta 属于外囊菌亚门)。此类真菌无性生殖时是经由细胞分裂而不是经
  • 大型强子对撞机坐标:46°14′N 06°03′E / 46.233°N 6.050°E / 46.233; 6.050大型强子对撞机(英语:Large Hadron Collider,缩写:LHC)是一座位于瑞士日内瓦近郊欧洲核子研究组织的对撞型粒子加
  • 弯腰树村弯腰树村是中华人民共和国云南省红河哈尼族彝族自治州泸西县旧城镇下辖的一个行政村。弯腰树村与镇三河村委会、松鹤村委会、以及曲靖市师宗县葵山镇者黑村委会接壤。弯腰树
  • 彭作奎彭作奎,新竹中学毕业,中兴大学水土保持学系学士,中兴大学农业经济研究所硕士,美国伊利诺伊大学香槟校区博士。他主张农地可以买卖,但新购农地不能兴建农舍,否则造成的农地流失是严
  • 成都市行政区划成都为中国15个副省级城市之一,下辖11个市辖区、4个县,代管5个县级市。成都下辖11个市辖区、4个县,代管5个县级市。
  • 海关2次云龙邮票海关2次云龙邮票,或称小龙邮票,是清朝发行的第二套常用邮票;也是中国的第二套邮票。小龙邮票由上海海关造册处印制,于清光绪8年(公元1882年)根据大龙邮票的云龙图案加以修改,并另外
  • 长城翼龙属长城翼龙属(属名:)是基础翼龙目的一属,不属于翼手龙亚目。化石发现于中国河北省的青龙县,该地属于髫髻山组,地质年代为侏罗纪晚期。化石是一个幼年个体标本,翼展约47.5公分。在2009
  • 采石矶采石矶位于中国安徽省马鞍山市西部的长江东岸,三国时更名采石矶;原名牛渚矶,为牛渚矶凸出长江而成。该处江面狭窄,形势险要,自古为江防重地,南宋绍兴三十一年(1161年)江淮参军虞允文大败金兵于此,史称采石之战。相传为唐朝诗人李白酒醉捉月溺死处。许多人前去吊唁李白,其中不乏好事者在附近的石壁上题诗以赞颂李白。明朝文学家梅之焕游山玩水时正好经过该处,见石壁上好事者们所写的诗词之后,连声叹气,在石壁空白之处题上了《采石江边》一诗:“采石江边一抔土,李白之名高千古!来来往往一首诗,鲁班门前弄大斧!”,用来讽刺这些功
  • 儒利亚诺·贝莱蒂儒利亚诺·贝莱蒂(Juliano Belletti,1976年6月20日-),前巴西足球运动员,司职右后卫,最后效力巴甲球会弗鲁米嫩塞。巴列提拥有意大利护照,故可以欧盟球员的身份毋需工作证于英超联赛上阵。贝莱蒂早年出身于巴西克鲁塞罗(另一著名球员为朗拿度),曾效力巴西大球会圣保罗。2001年时已有传言谓他会转投西甲球会瓦伦西亚,但最终没有了下文。至2002年终转赴西甲联赛,效力比利亚雷亚尔。至2004年他再转会至规模更大的巴塞罗那。他在巴塞罗那期间曾赢得两届西甲联赛冠军(2005、2006),以及一个欧冠
  • 阿部正春阿部正春(日语:阿部 正春/あべ まさはる ,1637年-1716年7月26日)日本江户时代大名。上总国大多喜新田藩主、武藏国岩槻藩第4代藩主、上总国大多喜藩主、三河国刈谷藩初代藩主。阿部家宗家4代、备后福山藩阿部家分家初代。岩槻藩第2代藩主阿部重次的次男。随父亲改姓三浦。庆安4年(1651年),父亲重次随江户幕府第3代将军德川家光殉死,哥哥定高继承家督,正春分得大多喜新田藩1万6000石,成为大多喜新田藩主。万治2年(1659年)1月23日,哥哥定高去世。其嫡男阿部正邦继承岩槻藩5代藩主、备后福山藩阿部