UR10e-Industrieroboter mit Saugnapf-Greifer ueber einer Markerplatte, gesteuert per Handgesten
Robotik & Computer VisionRobotics & Computer Vision IAAC · MRAC02

GESTURE-CONTROLLED
ROBOTIC MANIPULATION

ProgrammProgram

MRAC02 · Hardware II

TeamTeam

5 (IAAC)

LeistungRole

Perception · ROS 2 · Robotik

ToolsTools

UR10e · MediaPipe · OpenCV · ROS 2 · RTDE

PROJEKTBESCHREIBUNGPROJECT DESCRIPTION

KATEGORIECATEGORY
Akademisch · RobotikAcademic · Robotics

PROGRAMMPROGRAM
IAAC · MRAC02 2025/2026

Das Projekt ersetzt klassische Roboter-Bedienoberflaechen wie Teach-Pendant und GUI durch reine Handgesten. Ein menschlicher Operator steuert einen Industrieroboter UR10e ueber Pick-and-Place-Aufgaben, wobei die gesamte Steuerung allein aus Kamerabildern abgeleitet wird — eine intuitive Mensch-Roboter-Schnittstelle ohne haptische Eingabegeraete. The project replaces conventional robot interfaces such as teach pendants and GUIs with bare hand gestures. A human operator directs a UR10e industrial arm through pick-and-place tasks, with all control derived from camera images alone — an intuitive human-robot interface that needs no physical input device.

Die Pipeline besteht aus drei eng verzahnten Schichten. Eine Overhead-Kamera erkennt vier ArUco-Marker auf einer 400 × 300 mm-Platte und spannt per Homographie ein Koordinatensystem auf; rote Wuerfel werden ueber HSV-Farbsegmentierung lokalisiert und ihre Schwerpunkte von Pixeln in Roboterkoordinaten ueberfuehrt. Eine zweite Kamera erfasst die Hand des Operators mit Google MediaPipe Hands — ein Finger-Zaehl-Algorithmus klassifiziert Gesten von 0 bis 6 und bestimmt so den Ziel-Slot. The pipeline is built from three tightly integrated layers. An overhead camera detects four ArUco markers on a 400 × 300 mm board and establishes a homography-based coordinate frame; red cubes are located through HSV color segmentation and their centroids mapped from pixel space into robot-frame positions. A second camera captures the operator's hand using Google MediaPipe Hands — a finger-counting algorithm classifies gestures from 0 to 6 to select the target slot.

Kamera- und Gestendaten werden per UDP von Windows in eine ROS-2-Humble-Umgebung gestreamt, die in Docker unter WSL2 laeuft. Ein regelbasierter Entscheidungsknoten validiert jedes Kommando (Zielbereich, Slot-Belegung, Wuerfel-Naehe), bevor ein Steuerknoten eine 8-schrittige Pick-and-Place-Sequenz ueber RTDE ausfuehrt — inklusive Sicherheits-Hoehen, Saugnapf-Greifer und Fehlerbehandlung. Camera and gesture data are streamed over UDP from Windows into a ROS 2 Humble environment running in Docker on WSL2. A rule-based decision node validates every command — target range, slot occupancy, cube proximity — before a control node executes an 8-step pick-and-place sequence via RTDE, including safe travel heights, suction-gripper actuation and failure recovery.

Stabilitaet entsteht durch bewusst deterministisches Design: gelockte Homographie, EMA-Glaettung mit 5-mm-Raster, ein 20-Frame-Puffer gegen Gesten-Rauschen und ein Faust-Reset-Gate fuer eindeutige Befehlsfolgen. Das Ergebnis wurde durchgaengig demonstriert — eine erklaerbare Pipeline ganz ohne Black-Box-Machine-Learning, deren modulare ROS-2-Komponenten einzeln austauschbar sind. Stability comes from deliberately deterministic design: a locked homography, EMA smoothing with 5 mm snapping, a 20-frame buffer against gesture noise and a fist-reset gate for unambiguous command sequencing. The system was demonstrated end-to-end — an explainable pipeline with no black-box machine learning, whose modular ROS 2 components are each independently replaceable.

IHR PROJEKTYOUR PROJECT

Etwas Ähnliches zu bauen?Something similar to build?

VORHERIGESPREVIOUS ← ANATOMY OF A MACHINE: SHAPE NÄCHSTES PROJEKTNEXT PROJECT BRICK FLOW →