Achtung:

Sie haben Javascript deaktiviert!
Sie haben versucht eine Funktion zu nutzen, die nur mit Javascript möglich ist. Um sämtliche Funktionalitäten unserer Internetseite zu nutzen, aktivieren Sie bitte Javascript in Ihrem Browser.

Glasfasern aus der Optoelektronik in der Fakultät für Elektrotechnik, Informatik und Mathematik, Foto: Universität Paderborn

Bildinformationen anzeigen

Glasfasern aus der Optoelektronik in der Fakultät für Elektrotechnik, Informatik und Mathematik, Foto: Universität Paderborn

| Isabel Stroschein

Spracherkennung optimieren

Jahn Heymann setzt „Deep Learning“ mithilfe von tiefen neuronalen Netzen um

In den vierziger Jahren tauchte in der Technik-Forschung erstmalig der Begriff der neuronalen Netzwerke auf. Bildlich gesprochen handelt es sich dabei um ein Netz bestehend aus vielen Knoten. Jeder dieser Knoten ist für eine von vielen Rechenoperationen verantwortlich. Im Prinzip funktionieren diese Netzwerke ähnlich wie das menschliche Gehirn, jedoch mit vereinfachten Neuronen. Seit einigen Jahren arbeiten Wissenschaft und Forschung auf der ganzen Welt daran, diese neuronalen Netzwerke für die elektronische Spracherkennung zu nutzen.

Jahn Heymann (29), wissenschaftlicher Mitarbeiter bei Professor Dr.-Ing. Reinhold Häb-Umbach, beschäftigt sich seit Dezember 2013 an der Universität Paderborn mit der Optimierung der elektronischen Spracherkennung. Oftmals können störende Geräusche wie Rauschen oder andere Stimmen nicht herausgefiltert werden und die Spracherkennung scheitert. Durch die heutzutage verfügbare hohe Rechenleistung von Computern ist es möglich, den neuronalen Netzen mithilfe von Trainingsdaten menschliche Sprache beizubringen, diese kann dann von umgebenden Störgeräuschen unterschieden werden. Die Trainingsdaten bestehen aus mehreren Stunden gesprochener Sprache, inklusive deren Transkription. Daraus lernt das Netz dann den Zusammenhang zwischen akustischen Repräsentationen (Sprache) und den Buchstaben.

Auch die Spracherkennung in Situationen, in denen mehrere Personen sprechen, soll optimiert werden. Bislang braucht dafür jeder einzelne Sprecher ein Mikrofon. Durch die Berechnung der Schallgeschwindigkeit kann ein Computer die Richtung, in der ein Schall entsteht, mithilfe eines einzelnen Mikrofon-Arrays bestimmen und somit mehrere Sprach-
quellen erkennen und umwandeln.
Ziel dieser optimierten neuronalen Netze ist unter anderem die automatische Transkription von Sprache in einen schriftlichen Text. Allerdings stößt die Forschung schon seit Jahrzehnten schnell an ihre technischen Grenzen. Die internationale Kooperation ist somit ein wichtiger Aspekt, um neugewonnene Erkenntnisse auszutauschen und umeinander zu ergänzen. Durch Professor Dr.-Ing. Häb-Umbach und seine langjährige Erfahrung im Bereich der Nachrichten- und Informationstechnik ist die Universität Paderborn international gut repräsentiert und auch innerhalb Deutschlands existiert ein partnerschaftlicher Austausch unter anderem mit der Universität in Aachen.

Jahn Heymann, in dessen bevorstehender Promotion es ebenfalls um das „Deep Learning“ gehen soll, stellte die neuesten Fortschritte der Universität Paderborn im April in Brisbane vor und hat dort viele internationale Kontakte knüpfen können
sowie zahlreiche neue Erkenntnis-
se für seine Arbeit gewonnen. In den kommenden Monaten wird die Implementierung dieser Erkenntnisse seine Arbeit maßgeblich bestimmen.

Trotzdem werden Reinhold Häb-Umbach und seine Arbeitsgruppe weiterhin an Wettbewerben und Forschungstagungen teilnehmen.

Dateien:

FiS11_2015.pdf

Die Universität der Informationsgesellschaft