聚类和分类

Anonim

聚类和分类技术用于机器学习,信息检索,图像调查和相关任务。

这两个策略是数据挖掘过程的两个主要部分。在数据分析领域,这些对于管理算法至关重要。具体而言,这两个过程都将数据分成几组。这项任务在当今的信息时代具有高度相关性,因为需要适当地促进数据的大量增加和发展。

值得注意的是,聚类和分类有助于通过数据科学解决诸如犯罪,贫困和疾病等全球性问题。

什么是聚类?

基本上,聚类涉及根据数据的相似性对数据进行分组。它主要涉及距离测量和聚类算法,它们计算数据之间的差异并系统地划分它们。

例如,具有相似学习风格的学生被分组在一起,并与具有不同学习方法的学生分开教授。在数据挖掘中,聚类通常被称为“无监督学习技术”,因为分组基于自然或固有特征。

它应用于信息技术,生物学,犯罪学和医学等几个科学领域。

聚类特征:

  • 没有确切的定义

聚类没有精确的定义,这就是存在各种聚类算法或聚类模型的原因。粗略地说,这两种聚类是软硬的。硬聚类涉及将对象标记为仅属于群集或不属于群集。相反,软聚类或模糊聚类指定某事物属于某一群体的程度。

  • 难以评估

由于其固有的不精确性,通常难以确定聚类分析结果的验证或评估。

  • 无监督

由于这是一种无监督的学习策略,因此分析仅基于当前的特征;因此,不需要严格的监管。

什么是分类?

分类需要为现有情况或类别分配标签;因此,术语“分类”。例如,表现出某些学习特征的学生被归类为视觉学习者。

分类也称为“监督学习技术”,其中机器从已经标记或分类的数据中学习。它非常适用于模式识别,统计和生物识别。

分类特征

  • 利用“分类器”

为了分析数据,分类器是一种定义的算法,具体地将信息映射到特定的类。例如,分类算法将训练模型以识别某个细胞是恶性的还是良性的。

  • 通过通用度量标准进行评估

分类分析的质量通常通过精确和召回来评估,这是常用的度量程序。评估分类器在识别输出时的准确性和灵敏度。

  • 监督

分类是一种监督学习技术,因为它基于可比较的特征来分配先前确定的身份。它从标记的训练集中推导出一个函数。

聚类和分类之间的差异

  1. 监督

主要区别在于聚类是无监督的,并且被认为是“自学习”,而分类受到监督,因为它依赖于预定义的标签。

  1. 使用训练集

聚类不会尖锐地使用训练集,训练集是用于生成分组的实例组,而分类迫切需要训练集来识别相似的特征。

  1. 标签

聚类与未标记的数据一起使用,因为它不需要培训。另一方面,分类在其过程中处理未标记和标记的数据。

  1. 目标

聚类分组对象的目的是缩小关系以及从隐藏模式中学习新颖信息,同时分类试图确定某个对象属于哪个显式组。

  1. 细节

虽然分类没有指定需要学习的内容,但是聚类指定了所需的改进,因为它通过考虑数据之间的相似性来指出差异。

通常,聚类仅由单个阶段(分组)组成,而分类包括两个阶段,训练(模型从训练数据集学习)和测试(目标类是预测的)。

  1. 边界条件

与聚类相比,确定边界条件在分类过程中非常重要。例如,在建立分类时需要知道“低”与“中等”和“高”相比的百分比范围。

  1. 预测

与聚类相比,分类更多地涉及预测,因为它特别旨在识别目标类。例如,这可以应用于“面部关键点检测”,因为它可以用于预测某个证人是否在说谎。

  1. 复杂

由于分类包括更多阶段,处理预测,涉及程度或级别,与聚类相比,其性质更加复杂,聚类主要涉及对相似属性进行分组。

  1. 可能算法的数量

聚类算法主要是线性和非线性的,而分类包括更多的算法工具,如线性分类器,神经网络,核心估计,决策树和支持向量机。

聚类与分类:表格比较聚类和分类之间的差异

聚类 分类
无监督数据 监督数据
没有高度重视训练集 高价值的培训集
仅适用于未标记的数据 涉及未标记和标记的数据
旨在识别数据之间的相似性 旨在验证基准所属的位置
指定所需的更改 未指定所需的改进
有一个阶段 有两个阶段
确定边界条件并不是最重要的 确定边界条件对于执行阶段至关重要
一般不涉及预测 处理预测
主要采用两种算法 有许多可能的算法可供使用
流程不那么复杂 流程更复杂

聚类与分类综述

  • 聚类和分类分析都在数据挖掘过程中得到了很好的应用。
  • 这些技术应用于无数的科学中,这些科学对于解决全球性问题至关重要。
  • 大多数情况下,聚类处理无监督数据;因此,未标记,而分类与监督数据一起工作;因此,标记。这是分类在分类时不需要训练集的主要原因之一。
  • 与聚类相比,有更多与分类相关的算法。
  • 聚类试图验证数据彼此之间的相似或不相似,而分类则侧重于确定数据的“类”或组。这使得聚类过程更加关注边界条件,并且分类分析在涉及更多阶段的意义上更复杂。