// 所以所谓姿态估计到底怎么实现?
// paper核心代码有点难找,所以先看个简单实现感受一下

Mediapipe

Mediapipe是主要用于构建多模式音频,视频或任何时间序列数据的框架。借助MediaPipe框架,可以构建令人印象深刻的ML管道,例如TensorFlow,TFLite等推理模型以及媒体处理功能。

pip install mediapipe 

demo

import cv2  
import mediapipe as mp  
import time

# 初始化 Mediapipe Pose 模型
mpPose = mp.solutions.pose
pose = mpPose.Pose()
mpDraw = mp.solutions.drawing_utils

# 打开视频文件
cap = cv2.VideoCapture('C:/Users/HP/Downloads/dancing.mp4')

pTime = 0  # 上一帧的时间戳

# 进入视频帧处理的循环
while True:
    # 读取视频帧
    success, img = cap.read()
    # 如果读取失败,跳出循环
    if success is False:
        break
    
    # 将 BGR 格式的图像转换为 RGB 格式
    imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    
    # 使用 Mediapipe Pose 模型进行姿势检测
    results = pose.process(imgRGB)
    
    # 如果检测结果为空,继续下一帧处理
    if results is None:
        continue
    
    # 打印姿势关键点的位置信息
    print(results.pose_landmarks)
    
    # 如果检测到姿势关键点,绘制关键点连接线
    if results.pose_landmarks:
        mpDraw.draw_landmarks(img, results.pose_landmarks, mpPose.POSE_CONNECTIONS)
    
    # 遍历每个关键点,绘制圆圈并标记关键点索引
    for id, lm in enumerate(results.pose_landmarks.landmark):
        h, w, c = img.shape
        print(id, lm)
        cx, cy = int(lm.x * w), int(lm.y * h)
        cv2.circle(img, (cx, cy), 5, (255, 0, 0), cv2.FILLED)
    
    # 计算帧率并在图像上绘制
    cTime = time.time()
    fps = 1 / (cTime - pTime)
    pTime = cTime
    cv2.putText(img, str(int(fps)), (50, 50), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 3)
    
    # 显示处理后的图像
    cv2.imshow("Image", img)
    key = cv2.waitKey(1) & 0xFF  # 等待按键输入,延迟1ms

# 清理窗口和释放视频流
cv2.destroyAllWindows()
cap.release()

结果

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐