您现在的位置是:主页 > Q翼生活 >携手史丹佛、CMU 团队,机器学习的动作识别和预测能力大突破 >

    2020-07-12携手史丹佛、CMU 团队,机器学习的动作识别和预测能力大突破

    携手史丹佛、CMU 团队,机器学习的动作识别和预测能力大突破

     

    李飞飞作为人工智能领域鲜有的活跃女性学者,不知道这一次她又带领着团队做出了怎样的贡献呢?赶紧随雷锋网 AI 科技评论来看看吧。这项研究是李飞飞团队在今年 CVPR 上的一项最新工作,该方法提出了一种模型用于自动标注网路中巨量的嘈杂视频。

    以下内容是雷锋网 AI 科技评论根据论文内容进行的部分编译。

    论文摘要

    人类行为多种多样,而要如何才能让机器理解具有多样化和细粒度的人类行为,则是计算机视觉领域中的一个关键性的开放问题。通过手工的方式标注训练视频,对于少数的动作类型是可行的,但是这种策略无法完整覆盖丰富多样的所有动作。

    携手史丹佛、CMU 团队,机器学习的动作识别和预测能力大突破

    图一,该论文中的模型使用一组标注数据来学习如何为新的没有见过的动作类别进行标注的策略。这样可以学习特定领域的专有知识,以及如何在避免语义漂移(Semantic drift)的同时选择不同的範例。比如,该模型可以从训练数据中进行学习,如图所示,其中人的动作线索对正确动作分类的帮助更大(比如「骑马」),而不是动物的外形。在测试期间,这种知识可以被应用于标记一些全新类别的嘈杂数据,比如「饲养动物」,而 传统的半监督方法则是基于视觉相似(Visual similarity)性进行标注。

    当前,解决这一个问题的一个可能有效的策略是,使用半监督(Semi-supervised)或者「网路监督(Webly-supervised)」的方法,利用来自网路检索所产生的嘈杂数据来学习新的动作。然而,这些方法要幺通常无法学习到特定领域的知识(Domain-specific knowledge),要幺依赖于需要不断迭代的手工调整的数据标籤策略(Hand-tuned data labeling policies)。据雷锋网了解在这项研究中,李飞飞她们团队提出了一种基于 增强学习 (Reinforcement learning-based)的方法, 该方法能够从嘈杂的网路检索结果中筛选出适合于训练分类器的样本。

    携手史丹佛、CMU 团队,机器学习的动作识别和预测能力大突破

    图二,模型框架图。该模型使用从网路搜索所得的候选示例集,为特定的视觉概念学习分类器。在每一个时间节距(time step)t,模型通过 Q-learning 的智能体来选择样本(比如 D k),并将该样本加入到已经存在的正样本数据集 Dt-1  中构成训练样本。然后该训练样本被用于训练视觉分类器。分类器将同时更新智能体的状态 s t+1  并提供一个奖励 r t。然后在测试期间,经过训练的智能体能够用于从任意的全新的视觉概念的网路检索结果中,自动选取出正样本。

    该方法的核心思想是,使用 Q-learning 来学习一个小型标籤训练数据上的数据标籤策略,然后再利用该模型来自动标注嘈杂的网路数据,以获得新的视觉概念。

    据雷锋网 (公众号:雷锋网) 了解,为了验证该方法,研究员们在当前最富有挑战性的动作识别数据集 Sports-1M 上进行了实验, 实验内容包括动作识别基準、细粒度和新动作类别预测。 通过实验证明了该方法能够为嘈杂数据学习到足够好的标籤,并且使用这些标籤能够学习到準确的视觉概念分类器。

    通过 学习从嘈杂的网路视频了解