Google hat eine neue Technologie entwickelt, mit der die Sprachsuche beschleunigt und präziser wird. Die neue Technologie verwendet die Connectionist Temporal Classification (CTC) und sequenzdiskriminierende Trainingstechniken. Im Jahr 2012 wechselte Google von GMM (Gaussian Mixture Model) zu DNN (Deep Neural Networks), mit deren Hilfe das Unternehmen besser einschätzen konnte, welchen Sound ein Benutzer zu diesem Zeitpunkt produzierte, und verbesserte die Genauigkeit der Spracherkennung.
Unsere verbesserten akustischen Modelle basieren auf Recurrent Neural Networks (RNN). RNNs haben Rückkopplungsschleifen in ihrer Topologie, die es ihnen ermöglichen, zeitliche Abhängigkeiten zu modellieren: Wenn der Benutzer im vorherigen Beispiel / u / spricht, kommt sein Artikulationsapparat von einem / j / Ton und von einem / m / Ton zuvor. Versuchen Sie es laut auszusprechen - "Museum" - es fließt sehr natürlich in einem Atemzug, und RNNs können das erfassen. Der hier verwendete RNN-Typ ist ein Langzeit-Kurzzeitspeicher-RNN (Long Short-Term Memory, LSTM), der durch Speicherzellen und einen ausgeklügelten Gatemechanismus Informationen besser speichert als andere RNNs. Der Einsatz solcher Modelle hat bereits die Qualität unseres Erkenners deutlich verbessert.
Die Änderung der Technologie wurde von Google vorgenommen und wird nun verwendet, um die Sprachsuche in der Google-App auf iOS und Android sowie das Diktieren auf Android-Geräten zu ermöglichen.
Quelle: Google Research Blog