
GESTURE-CONTROLLED
ROBOTIC MANIPULATION
Das Projekt ersetzt klassische Roboter-Bedienoberflaechen wie Teach-Pendant und GUI durch reine Handgesten. Ein menschlicher Operator steuert einen Industrieroboter UR10e ueber Pick-and-Place-Aufgaben, wobei die gesamte Steuerung allein aus Kamerabildern abgeleitet wird — eine intuitive Mensch-Roboter-Schnittstelle ohne haptische Eingabegeraete. The project replaces conventional robot interfaces such as teach pendants and GUIs with bare hand gestures. A human operator directs a UR10e industrial arm through pick-and-place tasks, with all control derived from camera images alone — an intuitive human-robot interface that needs no physical input device.
Die Pipeline besteht aus drei eng verzahnten Schichten. Eine Overhead-Kamera erkennt vier ArUco-Marker auf einer 400 × 300 mm-Platte und spannt per Homographie ein Koordinatensystem auf; rote Wuerfel werden ueber HSV-Farbsegmentierung lokalisiert und ihre Schwerpunkte von Pixeln in Roboterkoordinaten ueberfuehrt. Eine zweite Kamera erfasst die Hand des Operators mit Google MediaPipe Hands — ein Finger-Zaehl-Algorithmus klassifiziert Gesten von 0 bis 6 und bestimmt so den Ziel-Slot. The pipeline is built from three tightly integrated layers. An overhead camera detects four ArUco markers on a 400 × 300 mm board and establishes a homography-based coordinate frame; red cubes are located through HSV color segmentation and their centroids mapped from pixel space into robot-frame positions. A second camera captures the operator's hand using Google MediaPipe Hands — a finger-counting algorithm classifies gestures from 0 to 6 to select the target slot.
Kamera- und Gestendaten werden per UDP von Windows in eine ROS-2-Humble-Umgebung gestreamt, die in Docker unter WSL2 laeuft. Ein regelbasierter Entscheidungsknoten validiert jedes Kommando (Zielbereich, Slot-Belegung, Wuerfel-Naehe), bevor ein Steuerknoten eine 8-schrittige Pick-and-Place-Sequenz ueber RTDE ausfuehrt — inklusive Sicherheits-Hoehen, Saugnapf-Greifer und Fehlerbehandlung. Camera and gesture data are streamed over UDP from Windows into a ROS 2 Humble environment running in Docker on WSL2. A rule-based decision node validates every command — target range, slot occupancy, cube proximity — before a control node executes an 8-step pick-and-place sequence via RTDE, including safe travel heights, suction-gripper actuation and failure recovery.
Stabilitaet entsteht durch bewusst deterministisches Design: gelockte Homographie, EMA-Glaettung mit 5-mm-Raster, ein 20-Frame-Puffer gegen Gesten-Rauschen und ein Faust-Reset-Gate fuer eindeutige Befehlsfolgen. Das Ergebnis wurde durchgaengig demonstriert — eine erklaerbare Pipeline ganz ohne Black-Box-Machine-Learning, deren modulare ROS-2-Komponenten einzeln austauschbar sind. Stability comes from deliberately deterministic design: a locked homography, EMA smoothing with 5 mm snapping, a 20-frame buffer against gesture noise and a fist-reset gate for unambiguous command sequencing. The system was demonstrated end-to-end — an explainable pipeline with no black-box machine learning, whose modular ROS 2 components are each independently replaceable.









