关于人工智能的两个认识是否正确?
1 、在其他条件不变的情况下(比如识别用的程序)。被识别对象越复杂,需要的训练集越多?比如要让程序识别猫(从各种图片中分别,飞机,狗,人,抽象的,写实的)需要很多训练集。但是如果要让程序识别矩形(所有图片中图片中只包括黑白两色),则需要的训练集相对于猫的训练集要少?
如果以上认识正确,现在是否有什么理论可以告诉人们。要区分多么复杂的图,大致需要多大数量的训练集?或者说训练集超过某一个临界值以后,对识别率的提升边际贡献已经很小了。有没有这样的理论?
2 、以用户分类为例,如果仅仅有用户收藏,搜索关键词,点赞的这三个因子,我对用户的分类可能只能做到 5 分(假设满分是 10 分)。那么如果再获得用户浏览每个视频的时长,哪些视频进行了评论,哪些视频进行了分享,等更多指标。那么用户的分类可能会做到更好,比如 6 分。
如果以上认识是正确的。那么在实际工作中大厂是如何进一步寻找这些指标的呢?这些指标是否已经被榨干?即现有可收集的的用户指标(不是说指标的数据量,而是说指标的种类)已经应收尽收了?除去用户数量增长和算法优化带来的边际效益。在挖掘“指标”这部分潜力还大么?