Humanoide Roboter. Jürgen Handke
teil, nicht etwa um zu zeigen, wie gut Roboter Fußball spielen können, sondern um ihre höchst anspruchsvollen Programme auf den Prüfstand zu stellen.
I.3.1.2 Pepper
Pepper kann mit seinen 1,20 m Körpergröße als ‚großer Bruder‘ von NAO betrachtet werden. Er wurde ebenfalls von der Firma SoftBank Robotics entwickelt und nutzt, zumindest für alle Modelle, die vor 2019 hergestellt wurden, die von NAO bekannte Entwicklungsumgebung Choregraphe. Seit 2019 werden zusätzlich Pepper-Modelle ausgeliefert, die per Android/Java programmiert werden. Abb. I.21 stellt Pepper mit seinen wesentlichen Komponenten dar.
Rein äußerlich sieht man, abgesehen von einer permanent sichtbaren Anzeige der identifizierten Benutzer-Spracheingabe über eine „Speech Bar“ auf dem Tablet und der Nutzung der Schulter-LEDs anstelle der Augen-LEDs bei Pepper-Modellen unter Android keine gravierenden Unterschiede zwischen diesem und früheren Pepper-Modellen.
Abb. I.21: Pepper und seine Komponenten
Pepper ist räumlich ziemlich flexibel einsetzbar. Dies gilt jedoch primär für das Innere von Gebäuden. Außeneinsätze sind dagegen problematisch wegen Peppers Empfindlichkeit gegenüber Umwelteinflüssen (z.B. Feuchtigkeit, Temperaturschwankungen, Untergrundbeschaffenheit). Außerdem kann die sensorische Wahrnehmung des Roboters durch Umgebungsfaktoren, wie z.B. Gegenlicht oder irritierende Objekte, stark beeinträchtigt werden. (Die letztgenannte Einschränkung gilt übrigens auch für den Einsatz im Inneren von Gebäuden.)
Pepper im HR-Fernsehen
In seiner ersten Live-Sendung „Hallo Hessen“ im Januar 2017 war Pepper bis wenige Minuten vor Sendungsbeginn extrem abgelenkt, schaute nur in Richtung Studiodecke und wollte partout, auch nach An- und Abschalten von ausgewählten Studiolampen, keinen Kontakt mit seinen Gesprächspartnern herstellen.
Kurz vor Beginn der Sendung konnte das Problem gelöst werden: Eine ballförmige weiße Schlafzimmerlampe hatte Pepper mit einem menschlichen Gesicht verwechselt. Nach Demontage der Lampe wandte sich der Roboter doch noch rechtzeitig seinen menschlichen Gesprächspartnern zu.
Pepper kann durch eigenständige Erkundung und Kartierung seine Umgebung kennenlernen und die resultierende Karte für die Navigation durch diese Umgebung nutzen.
Er ist mit zwei Armen und Händen mit jeweils fünf Fingern ausgestattet. Damit kann er kleine Objekte greifen, anheben, mit seiner Hand drehen und an einem anderen Ort ablegen. Allerdings sollten diese Objekte nicht schwerer als 500 Gramm sein, und die Manipulation von Objekten ist auch nicht sonderlich präzise. Das Schleppen von Lasten ist Pepper definitiv nicht möglich. In erster Linie haben Peppers Arme und Hände Kommunikationsfunktion, sie sind keine Werkzeuge für die Verrichtung manueller Arbeiten, sondern sie dienen primär der Unterstützung von Sprache durch Gesten.
Der Hauptzweck von Pepper und somit seine primäre Kompetenz ist die Interaktion mit Menschen. Neben der natürlichsprachlichen Dialogfähigkeit in mehreren Sprachen ist die Fähigkeit, Emotionen von Menschen zu erkennen und eigene Emotionen auszudrücken, ein weiteres herausragendes Merkmal von Pepper.
Seine sprachlichen Darbietungen können, abhängig von der Programmierung der Applikation, bimodal sein, indem Pepper seine gesprochenen Beiträge durch non-verbales Kommunikationsverhalten, insbesondere Gesten, komplementiert. Ein menschliches Niveau der verbalen und non-verbalen Kommunikationskompetenz sollte jedoch nicht erwartet werden, insbesondere nicht hinsichtlich Flexibilität und Robustheit.
Gesprochene Spracheingaben und -ausgaben lassen sich in Dialogen zwischen Mensch und Roboter einsetzen. In diesen Dialogen reagiert Pepper auf erkannte gesprochene Stimuli mit entsprechenden vordefinierten Antworten, die zufällig variiert werden können. Struktur und Thema des Dialogs, die möglichen Benutzereingaben und die möglichen Antworten des Roboters werden vom Entwickler vorgegeben.
Vorgefertigte Dialoge mit Pepper und NAO
Mensch: „Wie geht es Dir?“
Pepper: ^rand[gut super „sehr gut“ Klasse] und Dir?
(per Zufall wird ein Element ausgewählt, z.B. „super“)
Mensch: [„auch gut“ bestens]
(Mensch kann „auch gut“ oder „bestens“ sagen)
Pepper: ^rand[„das freut mich“ „alles klar“]
(per Zufall wird ein Element ausgewählt, z.B. „alles klar“)
usw.
Standardmäßig merkt sich Pepper nicht, worüber gesprochen wurde, d.h. er führt keine Dialogmodellierung durch. Diese sollte jedoch programmierbar sein, z.B. durch Verbindung mit zusätzlichen Chatbots, wie z.B. IBM Watson oder Microsoft Azure. Aufgrund der Erfordernis, alle Dialogoptionen vorzudefinieren, sind Gespräche mit Pepper zum aktuellen Zeitpunkt nicht sonderlich flexibel. Der menschliche Schreiber des Dialogs muss möglichst alle Benutzereingaben und sinnvolle Reaktionen bereits während des Entwicklungsprozesses vorhersehen und implementieren. Fehler im laufenden Dialog müssen durch selbstgeschriebene Mechanismen im Dialog behandelt werden.
Pepper besitzt die Fähigkeit, durch Interaktionen mit Menschen vier Basisemotionen in deren Gesichtern zu erkennen: Freude, Trauer, Ärger und Überraschung. Hierzu erkennt und integriert er visuelle, akustische und linguistische Merkmale, die er über seine eingebauten Kameras und Richtmikrofone von seinem menschlichen Gesprächspartner wahrnimmt. Dazu gehören unter anderem Mimik, Tonfall, verwendete Schlüsselwörter und die Haltung des Kopfes seines Interaktionspartners.
Pepper kann durch Kombination von verbalem und non-verbalem Verhalten positive und negative Emotionen wie Freude oder Langeweile darstellen. Als Mittel stehen ihm dafür die Anpassung verschiedener sprachlicher Parameter (Sprechgeschwindigkeit, Tonhöhe, Lautstärke, Pausen); paralinguistische Lautäußerungen; Gesten; Körperhaltung; Blickkontakt; sowie Variationen von Farbe und Leuchten („Blinken“ und „Rollen“) der LEDs seiner ‚Augen‘ zur Verfügung.12 Da Peppers Gesichtszüge starr sind, wie die einer Porzellanpuppe, spielt Mimik bei der Emotionsdarstellung keine Rolle.
Menschliche Gesichtszüge
In einigen Robotermodellen wird bereits mit beweglichen Gesichtszügen experimentiert. So hat sich die Firma Hanson Robotics auf humanoide Roboter mit menschenähnlichen Gesichtern und menschenähnlicher Mimik spezialisiert (siehe Sophia, Abb. I.11).
Auch Roboter wie Philip K. Dick (Hanson Robotics) oder die Geminoiden von Hiroshi Ishiguro haben menschenähnliche Gesichtszüge und Funktionen.
Zur Wahrnehmung seiner Umgebung ist Pepper mit einer Vielzahl von Sensoren ausgestattet. Dazu gehören zwei HD-Kameras (eine zwischen seinen ‚Augen‘ , eine in seinem ‚Mund‘ ), eine 3D-Kamera hinter den ‚Augen‘ und vier Richtmikrofone in seinem Kopf, mit denen er visuelle und akustische Informationen erfassen kann, unter anderem Sprache, menschliche Emotionsdarstellungen und Objekte in seiner Umgebung. Peppers Kopf und Hände sind mit taktilen Sensoren ausgestattet, die Berührung registrieren. Darüber hinaus verfügt Pepper in seinem Fuß über zwei Ultraschallsender und -empfänger (= Sonar), sechs Laser-Sensoren und drei Hindernisdetektoren. Damit kann er die Distanz zu Objekten in seiner Nähe bestimmen (Reichweite: 3 Meter). Weitere Sensoren messen innere Zustände des Roboters, wie z.B. die Temperatur seiner Komponenten oder den Batteriestand. Pepper ist bereits darauf programmiert, Sensordaten auf komplexe Art und Weise zu verarbeiten.
Wenn Pepper gerade mit nichts anderem beschäftigt ist, dann führt er autonom und zufallsgesteuert verschiedene körperliche Aktionen aus. Zum Beispiel öffnen und schließen sich dann seine Hände, er bewegt leicht die Arme, er imitiert durch leichte Oberkörperbewegungen eine Art Atmung, und er dreht den Kopf in verschiedene Richtungen. Diese Aktionen dienen vornehmlich einem Zweck, nämlich, dem Benutzer deutlich zu machen: „Ich lebe. Wäre ich eine Maschine, dann würde ich leblos auf meinem Platz warten, bis mich wieder jemand benutzt.“