研究人员对计算机视频识别取得进展

2021-10-01 10:46:19来源:

计算机可以在图像中识别您,但他们可以看到视频或真实世界的对象,并究竟介绍了什么?

研究人员正试图使计算机视频识别成为现实,并且他们正在使用一些图像识别技术来实现这一目标。

谷歌的研究人员正在进行视频识别,但谷歌大脑团队的Tensorflow工程总监Rajat Monga也有挑战,在本周Quora的问答答案期间表示。

视频识别的好处是巨大的。例如,计算机将能够识别一个人的活动,事件或位置。视频识别还将使自动驾驶汽车更加可行。

视频识别有可能向机器人提供数字眼,然后可以像洗衣一样常规琐事。

图像识别现在是常见的,但是视频识别涉及分析序列中串联聚集在一起的相关图像串。视频识别类似于人类愿景,我们看到相关图像的流,立即识别对象并识别我们周围的内容。

由于驾驶图像识别的深度学习模型的进步,视频识别的许多收益已经到来。

“通过彼此相关的每个视频中的帧序列,它提供了真实世界的更丰富的透视,允许模型创建世界的3D视图,而不必需要立体视觉,”曼引导谷歌的一个开源机器学习软件堆栈的Tensorflow。

在深度学习的背景下,与图像识别有关的挑战。计算机可以识别图像中的一些物品,但不是一切。当谈到对机器人的人类视觉的目标时,这是一个缺点。

通过视频识别真正的人类愿景是“遥远的,”Monga说。

需要培训计算机以识别深度学习模型中的图像,并且有大量存储库可用于在图片中交叉引用对象。大型数据集,如想象的大约1400万图像,有助于提高视力识别。但是,Monga说,但仍然需要更大的数据集。

谷歌的研究人员正在努力提高视频识别。该公司的研究人员正在研究深度学习如何通过预测视频帮助机器人。

谷歌正在制作AI云运营的一大部分,并且正在使用Google的机器学习,街道映射和其他服务。在谷歌之外,深度学习也被自驾车安全地使用,安全地巡航街道。公司还使用AI来摆脱代码中的错误。

Monga说,深入学习 - 培训和推理 - 均越来越好,越来越越来越好,但仍然有足够的改进空间。

更快的硬件和定制芯片的兴起,如谷歌的机器学习张量加工单元所帮助的深入学习。GPU的低级计算今天正在推动最深入的学习模型,但最快的硬件将使学习和推理更快。

“即使我们获得定制筹码,这仍然是一个挑战,即将持续的需求”对于更多计算,Monga说。

还需要更大的数据集和更多算法,它提供了底层公式来进行深度学习操作。

Monga说,培训培训深度学习模型的神经网络,培训深度学习模型,“很难没有足够的数据集。”

机器学习快速增长,许多公司正在采用谷歌的工具。像NVIDIA和MOVIDIOS这样的公司开发了Google“S Tensorflow的变体(由英特尔正在收购)服务器和嵌入式设备。

本周谷歌,亚马逊,Facebook,微软和IBM还在AI组织上形成了伙伴关系,以建立最佳AI实践。资助者Elon Musk,Peter Thiel,Sam Altman和Jessica Livingston承诺了10亿美元的快速发展AI项目,这成为IT行业AI活动的神经中心。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章