设为首页 | 加入收藏 | 网站导航
热点:
当前位置:首页 > 民生关注 > 正文
双Azure Kinect相机骨骼节点融合方法
时间:2026-03-13 17:23:45    来源:    

  摘要:计算机视觉和机器学习的发展促进了基于多视角3D骨骼序列的运动分析和人机交互的发展。单一深度相机中提取的3D人体骨骼会出现关节不准或者漂移现象。本文使用了双Azure Kinect深度相机系统,提出了一种高效的方法来融合3D步态骨骼序列。该方法首先对双Azure Kinect深度相机系统录制的人体步态视频通过Azure Kinect Body Tracking SDK生成3D骨骼序列。随后,通过最小化两个视角相同节点在一个视角下的节点坐标距离,确定相机的旋转矩阵和平移向量,确保了两个相机坐标系统的对齐。在此基础上,采用约束优化方法来重构3D步态骨骼。实验结果表明,与传统的单视角相机方法相比,本文提出的方法在步态骨骼重建的精度和稳定性方面均有显著提升,为3D骨骼步态分析提供了有效的技术支持。

  关键词:Azure Kinect 骨骼追踪 节点融合 约束优化

  1. 引言

  人体动作识别在人机交互领域作用广泛。目前的人体动作识别方法大多依赖于通过二维和三维姿态估计算法获得的骨骼序列。本文采用的Azure Kinect深度相机由RGB传感器和深度传感器组成,Azure Kinect Body Tracking SDK可以获得三维人体骨骼序列[1]。它为人体动作识别提供了新的机遇,其轻量级结构也为计算机游戏、虚拟试衣、环境交互和3D重建等应用带来了便利。

  目前学者们大多对单一视角的深度相机所获得的信息做研究,从单一视角深度相机所获得的图像中提取的骨骼信息存在自遮挡问题,骨骼振动和骨骼长度变化问题[2]。双视角深度相机系统可以在一定程度上缓解自遮挡问题和骨骼振动问题的影响,但是双视角融合也带来了新的问题,主要包括以下几个方面:坐标系的统一,由于单个深度相机获得的骨骼坐标序列是基于自身相机坐标系的,因此两个相机的坐标系不同,所以首先需要统一坐标系。双视角深度相机系统还存在骨骼长度不一致问题,这是因为双视场深度相机获得的两组骨骼序列是独立的。最终,双视角深度相机系统需要解决数据融合问题,在骨骼配准后,两组骨骼序列不完全一致。如何获得一组融合两组骨骼序列信息的序列是双视角深度相机融合的关键。

  如图1所示,本文开发了一个框架,该框架包含两个步骤。第一步基于序列的优化,推导相机坐标系间的转换参数,包括空间旋转矩阵与平移向量。这一步骤通过配准两组3D骨骼来解决坐标系统一的问题。第二步基于单帧信息重建骨骼节点,在整体参考骨骼长度的约束条件下,最小化重建节点与每组原始节点之间的距离。通过这两步优化过程,本文融合了两组骨骼序列。

  2. 国内外研究现状

  本文涉及一个双深度相机系统,因此本文对从深度摄像信息中获取人体骨骼的方法和技术进行了研究。骨骼追踪技术可以应用于一些特定领域,例如动作识别[3, 4]、辅助生活[5, 6]或步态分析[2, 7, 8]。目前,国内外研究学者们对于单摄像头[2, 9]和多摄像头[2, 10-14]做了广泛的人体姿态估计相关的研究。

  研究[9, 10]提出了使用单目相机进行骨骼跟踪的技术。研究[10]通过仅使用一个Kinect设备来提取Kinect骨骼数据,将概率滤波方法与有监督的机器学习算法相结合,用来纠正异常的跟踪轨迹。同时,研究[9]提出将人体骨骼比例一致原则和双侧对称性原理以及时间限制相结合,以增强人体运动骨骼的统一性和连贯性。

  依赖于单视角的模型往往会产生不切实际的3D人体姿态,特别是在发生自遮挡时,骨骼节点极易出现突然的振动,这是大多数视觉传感设备中普遍存在的问题。解决这一问题的直接方法之一是在操作区域使用多个摄像头。通常有两种方法可以通过多视图融合获得骨骼序列。一种是将所有深度图融合到一个联合点云中,再使用姿态估计方法。另一种是通过多个深度传感器获取人体骨骼节点的三维位置,然后通过融合模型融合多视角骨骼信息。

  参考文献[2, 10]从融合的点云中获取人体姿态。参考文献[10]介绍了一种新的方法,该方法将概率滤波方法与引导学习算法相结合,用来修正不自然的追踪。参考文献[2]描述了一种仅利用深度相机的深度数据估计和追踪人体骨骼的方法。该算法通过合并多个视角的三维点云构建整体点云。大多数论文采用的框架模式为先从多个Kinect传感器获取身体节点的3D位置,然后将估计的骨骼输入到一个融合模型。参考文献[15]介绍了一种评估每个跟踪的节点3D位置可靠性的技术,随后基于置信度合并多个角度结果。并与基于标记的运动捕捉系统获取的实际数据比较来衡量该方法的有效性。参考文献[3]提出了一个通过融合多个视角骨骼结构信息以实现人体动作识别的方法。该方法通过评估每个节点在动作框架中相对中央点的距离来识别每个节点的可靠视角。随后,它根据在该视角中骨骼的一致性为其他视角分配一个权重,并对权重归一化。

  无论采用何种融合技术,在多个视角融合中关键问题是实现正确的配准。目的是得到相对于目标深度相机坐标系统的旋转矩阵和平移向量。本文提出的方法利用Azure Kinect Body Tracking SDK生成的姿态估计数据,主要目标是融合最初估计的多个3D身体姿态来产生更真实和准确的全身姿态。

  3. 双Azure Kinect相机坐标系旋转矩阵和平移向量的计算

  为了综合两个摄像头获取的三维骨骼序列信息,首先需要计算从一个深度相机坐标系转换到另一个深度相机坐标系的旋转和平移参数。这种空间转换本质上属于刚体变换范畴。由于两个摄像头的位置是固定的,每一组3D骨骼序列都位于其各自的相机坐标系中,因此旋转矩阵和平移向量适用于整个骨骼序列。由于两个相机坐标系分别为正交的,这种转换属于正交变换类型,其旋转参数由正交矩阵表示。为求解旋转矩阵和平移向量,利用相同骨骼节点位置相近的准则,最小化空间变换后两组节点坐标序列之间的距离,并把旋转矩阵为正交矩阵作为约束条件。

  简而言之,问题可以概括为一个约束优化问题。通过解决这个问题,可以得到相机的旋转矩阵和平移向量。

  参考Azure Kinect Body Tracking SDK获得的节点置信度设置计算旋转矩阵和平移向量的点的对应权重。

  4. 双Azure Kinect相机骨骼节点权重设置

  通过求解优化问题获得了Azure Kinect B到Azure Kinect A坐标系转换的旋转矩阵和平移向量。因此,从相机B获取的3D骨骼节点坐标可以转换到相机A的坐标系中,这样就可以在相机A的坐标系下得到两组坐标。这两组坐标需要通过为每个节点分配一定的权重来融合。本文提出了一个获取这些权重的方法。

  当骨骼垂直于光轴时,比平行时更准确地估计骨骼,因此,骨骼相对于光轴的角度可以作为权重的参考。

  5. 骨骼长度约束初始化设置

  摄像头所获得的骨骼节点坐标是结合深度信息做的推断,因此,在不同的摄像头下,不同帧中,骨骼长度不一定相等,相同摄像头下相同帧的对称骨骼也不一定相等。人的骨骼长度是不变的,且具有一定的对称性。本文结合两组坐标信息及骨骼在不同摄像头下的权重,对骨骼长度进行初始化,为后续融合模型约束骨骼长度提供参考。

  6.基于约束优化的双Azure Kinect相机骨骼节点融合模型

  为了将变换后的视图坐标与另一个视图的坐标融合,本文构造了一个约束优化模型,模型以骨骼长度一致,骨盆及脊椎的关节的共线特性作为约束条件,优化模型的目标是最小化融合节点与两组节点之间的距离的平方与对应权重的乘积之和,其中,对应权重是由节点置信度和本文定义的点的权重共同确定的。

  由此获得融合后的骨骼节点坐标,新生成的坐标位置能够很好地反映人体步态的3D骨骼时序,从而实现对步态骨骼的精确重建。

  7. 骨骼节点融合实验与分析

  7.1. 融合前后骨骼节点对比

  本文提出的方法融合后的骨骼如图 3所示,其中绿色、红色、蓝色和黑色分别代表Azure Kinect A、Azure Kinect B、重建的骨骼和通过简单平均获得的骨骼。图 4为两台Azure Kinect相机对应深度图。

  如图 4右侧所示,人体右臂完全被遮挡,因此Azure Kinect B获得的右臂节点可靠性不高。然而,本文的算法获取的骨骼节点与无遮挡的骨骼非常相近。

  本文在图 5中比较了有无线性约束获得的重建后的骨骼。如图所示,没有线性约束时,骨盆关节的骨骼变形,不符合人体结构。因此,线性约束是必要的。

  7.1.1. 融合前后骨骼节点位置坐标对比

  图 6显示了节点0的三个轴的坐标。绿色、红色、蓝色和黑色曲线分别代表Azure Kinect A的位置、Azure Kinect B的变换位置、重建骨骼和简单平均骨骼。可以看出,本文重建的3D骨骼坐标基本位于两组相机所得的骨骼坐标之间,且与简单平均坐标不一致。这表明本文的算法产生的是连贯的坐标,并且能够获得一组稳定的骨骼序列。

  8. 结论

  本文提出了一种融合双深度相机获取的人体骨骼数据的方法。骨骼优化基于两步框架。第一步,基于序列的优化问题,目标在于获取两个相机坐标系间的空间转换参数,包括旋转矩阵和平移向量。第二步是基于帧的骨骼重建优化问题,通过最小化重建节点与两组参考节点之间的距离来求解重建骨骼节点,同时考虑整体骨骼长度的一致性和对称性以及一些骨骼节点之间的线性特征。两个相机的  权重是基于节点置信度和骨骼相对于光轴的角度确定的。实验结果表明,本文的算法在双深度相机获取的3D骨骼序列和保持序列稳定性方面取得了显著成果。然而,该方法也有一定的局限性,节点的权重设置涉及两个指标简单相加,后续可以考虑其他替代方法来增强权重分配。

  参考文献

  [1] Tlgyessy M, Dekan M, Chovanec U, et al. Evaluation of the Azure Kinect and its comparison to Kinect V1 and Kinect V2 [J]. Sensors, 2021, 21(2): 413.

  [2] Yeung K Y, Kwok T H, Wang C C L. Improved skeleton tracking by duplex Kinects: A practical approach for real-Time applications [J]. Journal of Computing & Information Science in Engineering, 2013, 13(4): 041007.

  [3] Azis N A, Jeong Y S, Choi H J, et al. Weighted averaging fusion for multi-view skeletal data and its application in action recognition [J]. IET Computer Vision, 2015, 10(2): 134-142.

  [4] Azis N A, Choi H J, Iraqi Y. Substitutive skeleton fusion for human action recognition[C]. Big Data and Smart Computing (BigComp), 2015 International Conference on, 2015.

  [5] Liu P-L, Chang C-C, Li L, et al. A simple method to optimally select upper-limb joint angle trajectories from two Kinect sensors during the twisting task for posture analysis [J]. Sensors, 2022, 22(19): 7662.

  [6] Srisen P, Auephanwiriyakul S, Theera-Umpon N, et al. Kinect joints correction using optical flow for weightlifting videos [J]. IEEE, 2016.

  [7] Mengqi Z, Zhonghua H, Chao M, et al. An objective balance error scoring system for sideline concussion evaluation using duplex Kinect sensors [J]. Sensors, 2017, 17(10): 2398.

  [8] Jun K, Lee K, Lee S, et al. Hybrid deep neural network framework combining skeleton and gait features for pathological gait recognition [J]. Bioengineering, 2023, 10(10): 1133.

  [9] Li R, Si W, Weinmann M, et al. Constraint-based optimized human skeleton extraction from single-depth camera [J]. Sensors, 2019, 19(11).

  [10] Kim Y S, Il Hong. Tracking human-like natural motion by combining two deep recurrent neural networks with Kalman filter [J]. Intelligent Service Robotics, 2018, 11(4).

  [11] Carraro M, Munaro M, Menegatti E. Skeleton estimation and tracking by means of depth data fusion from depth camera networks [J]. Robotics and Autonomous Systems, 2018, 110.

  [12] Wang Y, Chang F, Wu Y, et al. Multi-Kinects fusion for full-body tracking in virtual reality-aided assembly simulation [J]. International Journal of Distributed Sensor Networks, 2022, 18(5): 625-636.

  [13] Chen N, Chang Y, Liu H, et al. Human human pose recognition based on skeleton fusion from multiple Kinects[C]. 2018 37th Chinese Control Conference (CCC), 2018.

  [14] Nguyen M-H, Hsiao C-C, Cheng W-H, et al. Practical 3D human skeleton tracking based on multi-view and multi-Kinect fusion [J]. Multimedia Systems, 2022, 28(2): 529-552.

  [15] Moon S, Park Y, Ko D W, et al. Multiple Kinect sensor fusion for human skeleton tracking using Kalman filtering [J]. International Journal of Advanced Robotic Systems, 2016, 13(2): 1.

  [16] Sorkine-Hornung O, Rabinovich M. Least-squares rigid motion using svd [J]. Computing, 2017, 1(1): 1-5.

  作者:胡可欣

  单位:河南科技大学 农学院 生物科学专业

  学校地址:河南省洛阳市开元大道263号 

编辑:晏语悦
中原经济网版权与免责声明:
  • 1. 本网原创稿件版权均属于河南经济报社,未经河南经济报社授权,不得转载、摘编使用。
  • 2. 非本网原创作品均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。
  • 3. 如涉及作品内容、版权等其它问题,请在30日内同本网联系。邮箱:jingjibao@qq.com
Copyright © 1987-2025 河南经济报社 河南经济网 版权所有 All Rights Reserved. 中原第一权威经济门户
联系邮箱:jingjibao@qq.com 报社办公室电话:0371-53306911
报纸广告热线:0371-53306913 53306918 报纸发行热线:0371-53306915
《河南经济报》国内统一刊号:CN41-0066   邮发代号:35-92
豫ICP备2023003560号
  技术支持: 河南经济报社网络部  法律顾问:北京市盈科(郑州)律师事务所 何拥军 谷亚娟 白杰