WISSEN TEIL 4 - Sprachsteuerung

"Wie sag' ich's meinem Computer?"

MENSCH ZU MASCHINE

Ich beschränke mich hier auf die Kommunikation Mensch zu Maschine. Die Kommunikation Maschine zu Mensch – also die Sprachausgabe – ist ein komplett anderes Gebiet.

KONZEPT

Die Grundidee ist eine sehr einfache und auch bereits sehr alte. Science Fiction Autoren haben bereits Anfang des vorigen Jahrhunderts ihre Menschen zu Computern sprechen lassen. Diese hatten (bis auf einige, mitunter sehr witzige, Ausnahmen) prinzipiell keine Probleme, das gesprochene zu verstehen und umzusetzen.

PROBLEME

Wer schon einmal eine Fremdsprache erlernt hat weiß, dass die Umgangssprache – von Dialekten einmal komplett abgesehen – nicht wirklich logisch und einfach zu erlernen ist, ein Native-Speaker wird einen Ausländer immer an falsch übersetzten Redewendungen erkennen.

Im Gegensatz zu Computersprachen ist die menschliche Sprache nicht eindeutig und auch das Konzept der Mehrfachbedeutung für ein Wort ist, aus begreiflichen Gründen, aus Computersprachen komplett ausgeklammert.

Zusätzlich kommt dazu, dass jede menschliche Sprache ganz andere Mehrfachbedeutungen für ein Wort entwickelt hat.

Dies bedingt aber, dass der Computer, sofern er wirklich alles verstehen und umsetzen können soll, bereits für eine einzige Sprache einen enormen Wortschatz, Synonym- und Homonymlexikon und gewaltige Assoziationsfähigkeiten, also AI (Artificial Intelligence = Künstliche Intelligenz) haben muss, um die Bedeutung aus dem Satzzusammenhang zweifelsfrei zu erkennen.

Die Grundidee, jeder Mensch solle, ohne eine eigene (Computer)-Sprache erlernen zu müssen, in die Lage versetzt werden, mit Computern zu kommunizieren, ist also nicht so rasch in die Realität umzusetzen.

PRAXIS

Iphone oder Android
Die heutige Praxis zeigt aber, dass es mit einem SEHR eingeschränkten Wortschatz und SEHR eingeschränktem Befehlsumfang bereits durchaus funktioniert. Egal ob Iphone oder Android, es ist bereits möglich, Musiktitel abzuspielen, Abfragen zu starten etc.

Aber bereits hier sind durchaus nicht erwartete Ergebnisse zu erzielen. (Wie völlig unerwartet sie sind, belegt alleine die Tatsache, dass man darüber wirklich lachen kann. Wer sich damit auseinandersetzt wie ein Witz überhaupt zustande kommt, weiß, was gemeint ist.)

Computer
Am Beispiel von Ubuntu (Linux) und einem open source Projekt namens ‚Mycroft AI‘ zeigt sich, dass auch die Umsetzung für den Computer rasche Schritte vorwärts macht. (https://mycroft.ai/)

Open source (also frei zugänglicher Quellcode) ermöglicht auch hier komplette Überwachung der Funktionen und die Möglichkeit, eigene Erweiterungen zu schreiben.

IoT
Internet of Things, also das Zusammenhängen von Geräten, die ursprünglich nichts mit Computern oder Netzwerk zu tun haben, zeigt eine ganz andere Problematik.

Auch hier ist ‚Mycroft AI‘ wieder ein schönes und sehr überlegtes Beispiel.

Die generelle Problematik, irgendwelche Geräte, die sehr oft überhaupt nicht konfiguriert werden können, sondern „plug and play“ in das Netzwerk eingebunden werden, behandle ich ein einem eigenen späteren Teil. Hier nur kurz der Hinweis: Was man nicht konfigurieren kann, kann man auch nicht absichern.

VERARBEITUNG DER SPRACHEINGABE

Was den wenigsten Menschen bewusst ist, ist die Tatsache, dass zwar die Sprachausgabe, nie aber die Spracheingabe direkt am Gerät erfolgt.

Wie im Punkt ‚PROBLEME‘ erklärt, wären weder i- noch Smartphones oder auch handelsübliche Computer in der Lage, in einer vernünftigen Zeit die Spracheingabe zu bewältigen. Dahinter sitzen gewaltige Rechner im Internet.

Das bedeutet also, dass die Sprache vom Endgerät über das Internet an einen Rechner übertragen werden, dort in eine Spezialsprache übersetzt werden, zurück an das Endgerät übertragen werden und dieses führt dann entweder die Befehle aus oder reagiert mit einer Sprachausgabe.

Das klingt einfach und logisch, beinhaltet aber einige Konsequenzen.

Was wird übertragen
Generell wird von den Herstellern behauptet, dass nicht alles, was im Raum gesprochen wird, auch übertragen wird. Dies lässt sich aber höchstens bei Open Source einigermaßen überprüfen, den anderen Herstellern muss man also glauben. Ob das für eine kommerzielle Nutzung, wo später einmal vielleicht ein Email mit Unternehmenskritischen Daten in die Maschine diktiert wird, ausreichend ist, überlasse ich der persönlichen Einschätzung.

Es wird also behauptet, dass „nur“ das gesprochene, was dem sogenannten Weckwort folgt, übertragen und ausgewertet wird. Unter Weckwort versteht man z.B. „Siri“ oder „Alexa“ oder „Hey Mycroft“. Bei letzterem kann man – sofern man die cli-Konsole geöffnet hat – überprüfen, dass erst nach dem Weckwort der Text übertragen wird.

COPYRIGHT UND DATENSCHUTZ

Wie immer unterliegt alles, was man von sich gibt (Wort, Zeichnung, Bild, Foto, Text) dem Copyright desjenigen, der es ursprünglich von sich gibt. Wobei ‚ursprünglich‘ hier wörtlich zu verstehen ist.
Jetzt muss aber, siehe oben, das gesprochene Wort am Rechner im Internet verarbeitet werden. Dafür muss es zuvor gespeichert werden.

Und hier setzt die Problematik ein, wenn man es vom Aspekt des Datenschutzes her betrachtet, weil (außer wieder mycroft.ai) keine offengelegte Unternehmungspolitik im Hinblick auf diese Daten besteht. Mycroft garantiert die Löschung der Daten auf Anfrage des Users.

MISSBRAUCH

Auch der aktive Missbrauch der gesprochenen Daten ist durchaus denkbar: Ein Computer, der imstande ist, innerhalb von Sekundenbruchteilen gesprochene Daten zu ‚verstehen‘, könnte auch dahingehend missbraucht werden, diese Sprachdaten als Ausgangspunkt zu nehmen und den umgekehrten Weg der Sprachausgabe mit der Stimme des Urhebers zu bewerkstelligen.

GRENZEN

Da die Spracheingabe bereits Künstliche Intelligenz voraussetzt, ist auch die Überschreitung der Grenze zur „Starken Künstlichen Intelligenz“ (im Englischen als ‚Singularity‘ bezeichnet) im Auge zu behalten.

POSITIVES

Neben aller Problematik ist natürlich das weite Feld der positiven Aspekte und Möglichkeiten hervorzuheben. Pflegeroboter, die auf das gesprochene Wort reagieren. Notrufe, die aktiviert werden können, wenn der Mensch körperlich nicht (mehr) in der Lage ist, ein Smartphone zu benutzen. Assistenz bei der Arbeit am Computer ganz generell: Es ist schon beeindruckend, wenn der Laptop auf‘s Wort reagiert und z.B. Wikipedia im Browser öffnet – und das viel schneller, als auch ein durchaus geübter Mensch auf der Tastatur und mit der Maus bewerkstelligen kann.

ZUKUNFT

Es lässt sich durchaus auch eine Assistenzfunktion vorstellen, wo z.B. ein Chirurg während einer Operation Vergleichsbilder anzeigen lassen kann, ohne sich dabei zu kontaminieren, oder dafür einen menschlichen Assistenten zu benötigen.

Wie immer sind anfängliche „Spielereien“ wie das Abspielen eines Liedes oft der Ausgangspunkt für tatsächlich wichtige Funktionen.

C.E.Z-Software HgmbH
Wienerfeldgasse 34
1100 Wien

mail info(at)cezsoft.com

Neu 10er Block im Shop

Wir verwenden COOKIES auf unserer Seite. Nähere Infos dazu.