返回介绍

数学基础

统计学习

深度学习

工具

Scala

半监督学习

发布于 2023-07-17 23:38:25 字数 1349 浏览 0 评论 0 收藏 0

  1. 给定有标记样本集合 $ MathJax-Element-124 $ ,和未标记样本集合 $ MathJax-Element-56 $ ,其中 $ MathJax-Element-57 $ 。

    学习器自动地利用未标记的 $ MathJax-Element-473 $ 来提升学习性能,这就是半监督学习semi-supervised learning

  2. 半监督学习的现实需求非常强烈,因为现实中往往能够容易地收集到大量未标记样本,但是对其标记需要耗费大量的人力、物力。如:在医学影像分析上,对影像的疾病标记需要专家人工进行。

    因此可以通过专家人工标注少量的样本,然后采用半监督学习。

  3. 虽然未标记样本集 $ MathJax-Element-473 $ 没有直接包含标记信息,但是如果假设 $ MathJax-Element-473 $ 与带 $ MathJax-Element-428 $ 从同样的数据源独立同分布采样而来,则 $ MathJax-Element-473 $ 所包含的关于数据分布的信息对建立模型是有好处的。

  4. 要利用未标记样本,必然需要对未标记样本的分布与已标记样本的分布的关联做出假设。

    • 最常见的假设是聚类假设cluster assumption:假设数据存在簇结构,同一个簇的样本属于同一个类别。
    • 另一种常见假设是流形假设manifold assumption:假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。其中,邻近的程度用相似度来刻画。
    • 流形假设可以看作是聚类假设的推广,但流形假设对于输出值没有限制(可以为类别,也可以为实数),因此比聚类假设的适用程度更广,可用于多类型的学习任务。
    • 无论聚类假设还是流形假设,本质都假设是:相似的样本有相似的输出
  5. 半监督学习可以划分为:纯pure半监督学习和直推学习transduction learning

    • 纯半监督学习:假定训练数据中的未标记样本集 $ MathJax-Element-473 $ 并非待预测的数据。

      纯半监督学习是开放性的,它学得的模型能够适用于额外的未观测数据。

    • 直推学习:假定学习过程中考虑的未标记样本集 $ MathJax-Element-473 $ 就是待预测的数据,学习的目标就是在 $ MathJax-Element-473 $ 上获取最优泛化性能。

      直推学习是封闭性的,它学得的模型仅仅是针对学习过程中的未标记样本集 $ MathJax-Element-473 $ 。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文