计算机行业cv是什么 cv是什么

以下文章来自数据战斗学校,作者保罗·波普 。
转自数据战斗学校
作者:保罗·波普(神经实验室首席执行官)
译者:张育甲
原文:我们用算法观察如何破坏计算机视觉:以及合成计算机视觉如何修复它 。
深度学习的出现推动了整个机器学习领域的发展,以数据为中心的发展也是如此 。
本文将讨论主流计算机视觉(CV)的缺陷和未来的发展重点:合成计算机视觉(SCV) 。
计算机视觉的现状
根据Crunchbase的统计,在过去的八年中,超过1800家计算机视觉初创公司的投资价值超过150亿美元 。福布斯数据还显示,现在估值超过10亿美元的CV公司已经超过20家,而且还在增加 。
这些公司为什么估值这么高?因为它们教会计算机如何看待世界,并自动完成以前由人类视觉完成的任务 。
这种繁荣是2012年计算机视觉领域出现神经网络技术之后才有的 。神经网络是一种模拟人脑的算法,它使用大量的人类标记数据进行训练 。自2012年以来,该算法经过多次稳步改进,在一些视觉任务中的性能已经与人类相当,如目标计数、嘴唇识别或癌症筛查任务 。
在过去的10年里,很多人为计算机视觉的发展做出了贡献:学术界研究更好更先进的算法;大公司投资那些试图给图像数据集贴标签的人 。也有一些成果将为了大家的利益而开源,例如包含1400万条图像数据的ImageNet数据集 。
然而,当我们将这些系统部署到产品中时,我们会遇到以下问题:
1.现有的标注数据并不可靠 。麻省理工学院的一个团队对机器学习(ML)数据集进行了系统研究,发现ImageNet数据集中标记错误的错误率为5.93%,而其他数据集的平均错误率为3.4% 。
2.很少有人致力于解决数据本身的问题 。大多数学者将他们的智慧集中在算法开发上,忽略了对好数据的需求 。武大曾经说过,99%的人关注的是算法,而剩下的只有1%的数据 。
3.计算机视觉算法不能很好地从一个领域扩展到另一个领域 。用于在法国南部检测车辆的算法使得在白雪覆盖的挪威检测车辆变得困难 。同样,在特定相机上训练的系统很可能在另一个相机制造商或型号上失败 。
早在1946年,艾伦·都灵就建议将国际象棋作为计算机能力的评价标准之一 。经过更深入的研究,这个标准得到了很多媒体的认可 。
Elo评分系统是一种被普遍接受的衡量棋艺表现的方法,可以有效地比较每个人的棋艺 。下图是世界冠军和棋牌游戏引擎的分数 。过去50年,人类的表现一直徘徊在2800点,但在2010年被计算机超越 。
在最近十年里,人类一直在根据他们能够理解的规则设计象棋算法 。但是深度学习革命可以超越人类理解的范围,带来像计算机视觉一样的飞跃式发展 。
图|国际象棋引擎与人类的ELO评分
象棋游戏引擎虽然在深度学习的技术下取得了不错的发展,但是已经被下一代象棋引擎超越:DeepMind的AlphaZero 。更神奇的是,AlphaZero没有使用任何人类提供的数据 。它是在没有任何国际象棋游戏知识的情况下建造的,也没有任何关于最佳行走方式的人类指导 。AlphaZero既是老师也是学生——通过比赛教会自己如何更好的下棋,也是自己学习 。
AlphaZero一局未输,击败了当时最好的Stockfish 8引擎 。即使给予AlphaZero少一个数量级的考虑时间,这个优势依然可以保持 。
看到AlphaZero取得的显著成就,人们不禁要问:能否将其在国际象棋上的成功应用到计算机视觉上?
以数据为中心的人工智能
以数据为中心的人工智能的目的不是创造更好的算法,而是通过改变数据本身来提高模型性能 。即使不考虑图像数据集的获取和标注难度,数据质量问题依然存在:数据是否覆盖了所有可能的情况?要覆盖边界条件吗?
如果要构建以数据为中心的计算机视觉,就必须控制数据的来源 。为了让计算机视觉模型更好地学习和理解参数,需要保证数据的平衡 。
例如,我们想要控制三个参数:相机角度、光照和遮挡 。当你收集这样一个真实的数据集时,你必须设法控制这三个参数的值,同时收集1000个相关的图像 。但是有了这些真实的数据,任务还是很艰巨的 。
在过去的五年中,我们在优化数据收集流程和提高数据标签质量方面取得了巨大进步 。而且使用各种数据增强技术来充分利用数据集信息 。例如,将一些数学函数应用于数据集中的图像,以创建更多样化的数据 。
目前400多家公司的总市值已经达到1.3万亿美元(略高于脸书),满足了当今算法的数据需求 。
然而,这些方法最终会走进死胡同吗?算法在人类数据集上达到极限了吗?就像我们在国际象棋中使用人类数据作为算法输入一样,模型会受到数据集设计的限制,无法超越人类 。
在国际象棋中,如果我们停止建立人类的数据,而让机器建立自己的数据来优化学习过程,那么后深度学习就可以取得突破 。在计算机视觉中,我们还必须允许机器独立生成能够促进其学习的数据 。
CV:合成计算机视觉
通过虚拟现实引擎,可以更好地创建训练数据 。在精度上,模型的输出已经达到了现实世界的标准 。意味着可以通过模型生成智能数据来指导计算机视觉模型的学习 。这种合成数据可以成为以数据为中心的人工智能框架的基础 。
因此,我认为现在有必要广泛使用可视化复合数据 。
虚拟现实引擎有专门的生成合成数据的组件(比如 NVIDIA IsaacSim,Unity Perception),这些合成数据不仅美观,而且有助于训练更好的算法 。
3D 功能正迅速成为一种必需品——最新的 iPhone 手机就配备了激光雷达(LiDAR)和用于 3D 扫描的应用程序,来达到更好的性能 。
元宇宙(Metaverse)的时代即将开始 。人们将会渐渐习惯生活在虚拟现实的世界中 。比如未来的宝马制造厂和谷歌的孪生供应链,就会应用到数字孪生技术 。行业的领头者已经开始使用虚拟现实技术来改进计算机视觉算法:特斯拉(Tesla)就在利用虚拟现实技术来生成驾驶场景的边缘情况和更多的新视角 。
如果我们有合适的工具来建立数据集,我们就可以省去手动标记数据的繁琐过程,更好地开发和训练计算机视觉算法 。Gartner认为,未来三年,合成数据将比真实数据更占优势 。
如果我们更进一步呢?进入一个不需要人类标记图像的计算机视觉世界 。
通过合成计算机视觉,我们可以在虚拟现实中建立模型,并在现实世界中部署它们 。就像在象棋比赛中,AlphaZero可以自己学习重要的部分,所以我们用算法来确定模型需要关注什么,才能达到最好的学习效果 。
在合成计算机视觉(SCV)中,我们使用虚拟现实引擎来训练计算机视觉模型,并将训练好的模型部署到现实世界中 。
人眼能看到的远没有真实世界丰富,所以我们的算法只能达到人类理解和标记的信息范围 。但事实可能并非如此,因此我们可以为传感器建立算法,以测量超出人类感知的事物 。这些算法可以通过虚拟现实中的编程进行有效训练 。
与其建立更大的模型,用更多的计算能力去解决问题,不如更好地获取对算法学习有帮助的数据 。算法的学习不需要同类型的数据,而是各种不同的数据 。
《深度心灵》显示,AlphaZero只是一个开始 。他们把同样的方法应用到围棋、星际争霸和蛋白质折叠中 。现在我们已经拥有了为计算机视觉构建类似AlphaZero系统的所有必要组件,这样它就可以自我学习,而不会受到人类设计输入的限制 。该系统可以创建和操作虚拟场景,并通过自学解决视觉自动化的任务 。
合成计算机视觉的基础是合成数据 。前期大约有30家公司已经开始了可视化复合数据生成的业务 。一些公司专注于一个垂直领域中的特定用例,而大多数公司同时在多个垂直领域中进行 。
2021年只是新研究的开始,合成数据只是需要解决的问题的一小部分 。
【计算机行业cv是什么 cv是什么】图|合成数据公司

    推荐阅读