跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 初学者对机器学习课程中“交叉验证”名词的疑问
未分類
19 7 月 2020

初学者对机器学习课程中“交叉验证”名词的疑问

初学者对机器学习课程中“交叉验证”名词的疑问

資深大佬 : silencht 8

机器学习初学者,感谢各位的包涵。疑问如下:

首先,吴恩达机器学习课程中,第六周应用机器学习的建议——模型选择和交叉验证一节中讲到(如图一),将六成数据作为训练集,两成数据交叉验证集,两成数据测试集。然后分四步:

第一:用训练集训练出多个模型得到各自参数;

第二:将这若干个模型分别在此用交叉验证集计算各自交叉验证误差;

第三:选取交叉验证误差最小的模型;

第四:用第三步选出的模型,对测试集计算泛化误差。

初学者对机器学习课程中“交叉验证”名词的疑问 ↑↑↑图一↑↑↑

以上大体是吴恩达课程中该部分对交叉验证的概述。

然而,我在搜索引擎及书籍中看到一种观点如下,如图二《白话机器学习算法》,这本书的意思大概为:

将全部数据集本身切分,然后分别依次互相做交叉验证集。

初学者对机器学习课程中“交叉验证”名词的疑问 ↑↑↑图二↑↑↑

两处对交叉验证名词的解读有明显不同。

故有此疑问,机器学习中的交叉验证到底是指什么呢?吴恩达机器学习课程和一些书籍中的该名词指的是同一种事物吗?

大佬有話說 (6)

  • 資深大佬 : lsvih

    如果我没记错的话前面那个叫 holdout cross validation,后面是标准的 k-fold cross validation

  • 資深大佬 : conge

    数据集够大,可以用吴的方法,预留数据做 CV 。数据集不够大,不能预留的,用第二种方法。

  • 資深大佬 : cqcn1991

    两个都叫 validation
    Cross validation 指的是不用全部数据来做训练, 拿一部分做验证.

  • 資深大佬 : cqcn1991

    以避免 over fittinh 的问题

  • 資深大佬 : futou

    第二种情况主要针对传统机器学习,样本集很小,再独立出验证和测试集不再具有代表性。
    打完看了一眼,正文中说的很清楚:“然而,如果原始数据集很小….”
    另外我个人认为 cross validation 默认就是 k-fold cross validation,第一种一般验证集只叫做 validation

  • 資深大佬 : jingous

    @futou +1

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具