AI从炫技术到创造商业价值有几步？印奇详解旷视“2+1”AIoT核心技术科研体系

7月15日消息，尽管AI应用已经深入到人们生活的诸多角落，但是AI技术本身还笼罩着神秘的面纱，吸引技术爱好者瞩目。

MegTech 2022 旷视技术开放日上，旷视科技联合创始人、CEO印奇联手旷视研究院的一众技术大拿们分享了AI视觉最新技术的钻研创新成果和未来趋势展望。

此外，技术开放日现场，旷视一口气展示了20款技术AI视觉技术最新应用，其中不乏“瞬时相机”、“VR裸手交互”、“低功耗嵌入式 L2 自动驾驶方案”等让人眼前一亮的应用。

视觉AI技术还将会在多大广度和深度上改变生产和生活方式？作为一家深耕AI视觉技术11年的企业，旷视技术开放日上这些技术分享和应用展示或可窥见一斑。

旷视科技联合创始人、CEO印奇

印奇表示，AI是旷视一直坚持的核心能力，而IoT是商业价值的核心载体。从视觉AI技术创新到实现AIoT落地应用创造商业价值需要具备“三要素”，在AI端有两个核心要素（基础算法科研和规模算法量产），在IoT端有一个核心要素（以计算摄影学为核心的算法定义硬件）。这个“2+1”AIoT的核心技术科研是支撑旷视不断走向新的AIoT商业成功的最重要基石。

视觉AI基础模型研究新趋势：“大”和“统一”

事实上，在过去的十年里，每一代基础模型的突破都在很大程度上促进了视觉AI的发展。尤其是在2012年AlexNet提出之后，基于深度学习的神经网络成为AI视觉发展的主要原动力之一。根据神经网络的用途以及构建方式的不同，大体上可以分为CNN、Transformer、基于自动化神经网络架构搜索的模型、以及轻量化模型等等，这些模型都在一定时间内极大地推动了当时AI发展的进程。

时间来到2022年，在视觉AI基础模型研究上又呈现出哪些新趋势？

旷视研究院基础科研负责人张祥雨认为：“‘大’和‘统一’是当今视觉AI基础研究的新趋势。‘大’是指AI大模型利用大数据、大算力和大参数量，提高模型的表达能力，使得AI模型能够适用于多种任务、多种数据和多种应用场景；‘统一’的趋势则表示在， AI视觉研究领域众多，AI视觉基础模型研发，如CNNs、VL Models、 Transformers等；视觉基础应用，如检测、分割等；AI算法的演化，如优化、自监督、半监督等。此前每一个研究路径都衍生出一系列算法。但是，这两年我们发现这些算法在底层正在走向统一。比如通过在训练过程中增加先验的方式，使得CNN、ViT、MLP都取得相似的性能。这种统一趋势为我们‘统一’AI系统设计奠定了基础。”

不过，张祥雨也强调，模型越“大”并不一定代表着越好，打造AI大模型要注意“边际效应递减”现象，也就是随着模型的参数量和数据量的增多，收益却在逐渐变少的现象。研究不仅需要往“大”的方向努力，更重要的是如何让“大”模型的优势发挥出来，这是当今AI视觉研究主要的趋势和挑战之一。

旷视模型研究定义的“大”，是要以创新的算法充分发挥大数据、大算力的威力，拓展AI认知的边界。

目前，基于“大”和“统一”的两大趋势，旷视基础模型科研分为四个主要方向：

第一，通用图像大模型。主要着眼于构建通用的、统一的、高性能的图像视觉大模型。研究创新的方法，让“大”真的能为性能提升所服务，让大模型产生和孵化更多的应用。

第二，视频理解大模型。攻克在目前视频理解和视频建模中困扰业界已久的长序列建模问题，以及找到更为高效的视频模型的训练、监督和应用的方法。

第三，计算摄影大模型。目前计算摄影的很多任务以及模型是通过对图像退化的模式进行建模，来实现高质量图像生成。

第四，自动驾驶感知大模型。这项研究主要聚焦在研究简单、高效、统一、易于使用的自动驾驶模型的优化、训练和部署方法。

AI算法量产如何实现？

需要注意的是，传统意义上，我们说某种东西量产，一般是说批量化的生产出同一种商品。这里，旷视所说的“AI算法量产”，是可批量生产出很多种算法，这些算法适配于不同的应用场景。

旷视研究院算法量产负责人周而进表示，要实现算法量产，需要克服“数据生产的复杂性、算法模型在生产过程中的不确定性、模型部署硬件平台的多样性”三方面挑战。

为了加速AI算法量产，旷视打造了AIS （AI Service）算法生产平台。这个平台作为旷视在算法量产领域的最新进展，在这次技术开放日上向公众开放亮相。

周而进介绍， AIS算法生产平台是旷视基于多年算法生产经验，包括Brain++体系、自研的深度学习框架MegEngine，数据管理平台MegData和计算平台MegCompute等基础上打造的一站式 MLOps 算法生产平台，能提供从数据清洗、智能标注、数据管理、数据质检、算法自动生产、模型多维能力评测、pipeline 部署等全流程能力。

目前，AIS已支持 100 多种业务模型训练，2 小时即可完成模型训练，模型产出精度指标远高于业界平均水平；其中的ADS（Auto Deploy Service）模型部署工具，提供将训练好的模型一键转换至不同计算平台并支持测试对分的服务，可大幅简化模型从训练到部署的流程。

算法定义硬件之：AI传感器

随着算法量产成为现实，如何将算法部署应用到具体的生产生活空间中，这是IoT承载的商业价值。在印奇看来，这是旷视算法定义硬件最终要解决的问题和创造的价值。

在技术开放日现场，旷视研究院计算摄影负责人范浩强用“计算摄影”为例详解了算法定义硬件的意义和价值。

在范浩强看来，随着AI、视觉算法等领域的发展，传感器将不再单独、直接提供应用价值，这两者之间需要算法来作为承上启下的桥梁。随着应用的不断升级，它对算法提出了越来越多的需求，而算法也对传感器到底需要提供什么样的信息输入提出了要求，甚至本质性地改造了传感器的形态和样式，进而产生了 “AI定义传感器”这一概念。

在“计算摄影”中，算法的引入使得智能手机完成高质量地月光夜景拍照。进入2022年，在旷视AI技术驱动下的智能手机拍照能力已经达到星光级，可以在人眼难以辨识的环境之下拍出高质量的照片。这个过程中，AI算法扮演着非常重要的角色。

范浩强透露，目前旷视对8K级别的“AI画质”硬件方案的研发与产品化，希望能够在不久的未来和大家见面。

谈及AI定义传感器这条路未来趋势，范浩强介绍旷视今年还将发布两个新技术愿景：

一是，在画质维度上，提出走向16K AI极超高清的AI画质这一概念。16K所带来的改变将不只是像素数，旷视希望通过AI、传感和显示这三者一起联动，实现真正身临其境的影像体验。

二是，从 IoT传感角度，传感器将走向更加极致的小型化、低功耗，从而能够和每个人的日常生活，和每个人自身实现更加深度的结合。

在技术开放日现场，旷视展示了“瞬时相机”的应用效果。瞬时相机不仅可以准确拍摄到高速运动物体的细节，还能改善相机在低光条件下的拍摄表现。