跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 关于人工智能的两个认识是否正确?
未分類
29 12 月 2020

关于人工智能的两个认识是否正确?

关于人工智能的两个认识是否正确?

資深大佬 : huzhikuizainali 14

本人纯小白,如果问的不得要领,请各位多包涵。

1 、在其他条件不变的情况下(比如识别用的程序)。被识别对象越复杂,需要的训练集越多?比如要让程序识别猫(从各种图片中分别,飞机,狗,人,抽象的,写实的)需要很多训练集。但是如果要让程序识别矩形(所有图片中图片中只包括黑白两色),则需要的训练集相对于猫的训练集要少?
如果以上认识正确,现在是否有什么理论可以告诉人们。要区分多么复杂的图,大致需要多大数量的训练集?或者说训练集超过某一个临界值以后,对识别率的提升边际贡献已经很小了。有没有这样的理论?

2 、以用户分类为例,如果仅仅有用户收藏,搜索关键词,点赞的这三个因子,我对用户的分类可能只能做到 5 分(假设满分是 10 分)。那么如果再获得用户浏览每个视频的时长,哪些视频进行了评论,哪些视频进行了分享,等更多指标。那么用户的分类可能会做到更好,比如 6 分。
如果以上认识是正确的。那么在实际工作中大厂是如何进一步寻找这些指标的呢?这些指标是否已经被榨干?即现有可收集的的用户指标(不是说指标的数据量,而是说指标的种类)已经应收尽收了?除去用户数量增长和算法优化带来的边际效益。在挖掘“指标”这部分潜力还大么?

大佬有話說 (8)

  • 資深大佬 : iConnect

    1 复杂图片不好定义,是指图片大?还是图片模糊?还是图片上物体多?人眼觉得复杂机器不一定,看起来复杂,如果学习特征明显,机器也可以很容易。“复杂”没有准确定义,自然没有“复杂”度相关的理论,可以说虚拟模型都是特事特办,人工调参。如果有对应的理论,也就是可以实现机器调参了。

    2 大厂也靠“蒙”参数。蒙对了就纳入模型,梦错了下次去掉,修正模型。

  • 資深大佬 : hello2060

    第一个是有的,我没实际经验只是上过 coursera,一方面是样本多少,一方面是特征集的大小。样本太多会形成过拟合,相当于电脑记住了每个样本的结果所以在训练集上完美,但是在真实世界不行,这种情况下样本继续增多样本已经没用了。吴恩达的课说了好几个指标。可以判断你是样本不够还是特征集不够

  • 主 資深大佬 : huzhikuizainali

    @iConnect 谢谢回复。
    关于 2 、也就是说增加哦“有效”指标的数量对于分类效果必定有提升。这个看法是成立的?

  • 資深大佬 : gimp

    借请教个问题,我用指纹捺印训练后的模型(训练集的图片大概 1/10 A4 纸大小),在识别 A4 扫描后的电子档上的指纹时识别不到,需要裁剪后才能识别。

    我想到的解决方案如下,不知道靠不靠谱,还有没有什么好的方式,我想做的事儿是判断扫描件上有没有指纹

    1,调整训练集数据,让其跟真实的要识别的图像尺寸贴近。(暂时还没有这样的训练集样本)
    2,识别前对电子档图片进行裁剪(不太确定指纹具体位置,这样的话可能需要裁剪成多份小图,识别后再计算相对坐标,似乎也不太好)

  • 資深大佬 : mcone

    1. 复杂的多类问题确实需要训练数据多,逻辑是多分类问题->参数少的模型难以拟合->增加模型复杂度->需要训练数据增加,但是识别黑白两色图像的数据,不一定比彩色图少,不少模型为了省事都是 RGB 转灰度再丢进去的。
    需要的数据量靠经验估+根据模型验证集性能自己调,理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数

    2. 是的,但是也可能会下降到 4 分,就像孟德尔的豌豆一样。
    人肉测,人肉调参,无他。不然大厂雇一群人一年写出来一个模型,不需要更新了,那这群人还继续养着干啥,都开了呗还省钱。

  • 主 資深大佬 : huzhikuizainali

    @mcone 谢谢回复!
    “理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数” ———请问这个理论是否有中文名称?有没有哪本书对这个理论有比较深入浅出地介绍?

  • 資深大佬 : MinQ

    @gimp 你所使用的算法是什么?原始分辨率是多大?模型接受的分辨率是多大?有没有预处理步骤?

  • 資深大佬 : mcone

    @huzhikuizainali
    Vapnik-Chervonenkis Dimension
    20 这个参数是经验参数,大部分描述为 10-30

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具