Meta AI stellt omnilinguale ASR vor und verbessert damit die automatische Spracherkennung in mehr als 1,600 Sprachen.
In Kürze Meta AI hat das Omnilingual ASR-System auf den Markt gebracht, das Spracherkennung für über 1,600 Sprachen bietet, und hat Open-Source-Modelle sowie ein Korpus für 350 unterversorgte Sprachen veröffentlicht.
Forschungsabteilung des Technologieunternehmens Meta, spezialisiert auf KI und Augmented Reality, Meta-KI kündigte die Veröffentlichung des Meta Omnilingual Automatic Speech Recognition (ASR)-Systems an.
Diese Modellreihe ermöglicht die automatische Spracherkennung für über 1,600 Sprachen und erzielt dabei eine beispiellose Leistungsfähigkeit. Darüber hinaus veröffentlicht Meta AI Omnilingual wav2vec 2.0 als Open Source – ein selbstüberwachtes, massiv mehrsprachiges Sprachrepräsentationsmodell mit 7 Milliarden Parametern, das für vielfältige nachgelagerte Sprachverarbeitungsaufgaben entwickelt wurde.
Neben diesen Tools veröffentlicht die Organisation auch das Omnilingual ASR Corpus, eine kuratierte Sammlung transkribierter Sprachaufnahmen aus 350 unterversorgten Sprachen, die in Zusammenarbeit mit globalen Partnern entwickelt wurde.
Die automatische Spracherkennung hat in den letzten Jahren große Fortschritte gemacht und erreicht für viele weit verbreitete Sprachen nahezu perfekte Genauigkeit. Die Ausweitung auf weniger verbreitete Sprachen stellt jedoch aufgrund des hohen Daten- und Rechenaufwands bestehender KI-Architekturen weiterhin eine Herausforderung dar. Das Omnilingual ASR-System begegnet dieser Einschränkung, indem es den Sprachcodierer wav2vec 2.0 auf 7 Milliarden Parameter skaliert und so aus roher, untranskribierter Sprache reichhaltige mehrsprachige Repräsentationen erzeugt. Zwei Decodervarianten ordnen diese Repräsentationen Zeichen-Tokens zu: eine mittels konnektionistischer temporaler Klassifikation (CTC) und eine weitere mittels eines Transformer-basierten Ansatzes, ähnlich dem in großen Sprachmodellen.
Dieser LLM-inspirierte ASR-Ansatz erzielt eine herausragende Leistung in mehr als 1,600 Sprachen, wobei die Fehlerrate bei 78 % der Sprachen unter 10 liegt, und führt eine flexiblere Methode zum Hinzufügen neuer Sprachen ein.
Im Gegensatz zu herkömmlichen Systemen, die eine Feinabstimmung durch Experten erfordern, kann Omnilingual ASR eine bisher nicht unterstützte Sprache mit nur wenigen Audio-Text-Paaren integrieren und so die Transkription ohne umfangreiche Daten, spezialisiertes Fachwissen oder Hochleistungsrechner ermöglichen. Obwohl die Ergebnisse von Zero-Shot-Systemen noch nicht mit vollständig trainierten Systemen mithalten können, bietet diese Methode einen skalierbaren Weg, unterversorgte Sprachen in das digitale Ökosystem zu integrieren.
Meta AI wird die Spracherkennung mit einer omnilingualen ASR-Suite und einem Korpus voranbringen
Die Forschungsabteilung hat eine umfassende Modellsuite und einen Datensatz veröffentlicht, die die Sprachtechnologie für jede Sprache voranbringen sollen. Aufbauend auf früheren Forschungen von FAIR umfasst Omnilingual ASR zwei Decodervarianten: von ressourcenschonenden 300M-Modellen für Geräte mit geringem Stromverbrauch bis hin zu 7B-Modellen mit hoher Genauigkeit für vielfältige Anwendungen. Das universelle Sprachmodell wav2vec 2.0 ist ebenfalls in verschiedenen Größen verfügbar und ermöglicht so ein breites Spektrum an sprachbezogenen Aufgaben jenseits der automatischen Spracherkennung (ASR). Alle Modelle stehen unter der Apache-2.0-Lizenz, der Datensatz unter CC-BY. Dadurch können Forscher, Entwickler und Sprachförderer Sprachlösungen mithilfe des Open-Source-Frameworks fairseq2 von FAIR im PyTorch-Ökosystem anpassen und erweitern.
Omnilingual ASR wird anhand eines der größten und sprachlich vielfältigsten ASR-Korpora trainiert, das jemals zusammengestellt wurde. Es kombiniert öffentlich zugängliche Datensätze mit von der Community erstellten Aufnahmen. Um Sprachen mit geringer digitaler Präsenz zu unterstützen, Meta-KI In Zusammenarbeit mit lokalen Organisationen wurden Muttersprachler in abgelegenen oder unterrepräsentierten Regionen rekrutiert und vergütet. So entstand das Omnilingual ASR Corpus, der bisher größte Datensatz spontaner automatischer Spracherkennung (ASR) mit extrem geringen Ressourcen. Weitere Kooperationen im Rahmen des Language Technology Partner Program brachten Linguisten, Forscher und Sprachgemeinschaften weltweit zusammen, darunter Partnerschaften mit Common Voice der Mozilla Foundation und Lanfrica/NaijaVoices. Diese Bemühungen lieferten tiefgreifende linguistische Erkenntnisse und kulturelle Kontextinformationen und stellten sicher, dass die Technologie den lokalen Bedürfnissen gerecht wird und gleichzeitig vielfältige Sprachgemeinschaften weltweit stärkt.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Uniswap Labs und die Uniswap Foundation schlagen die Aktivierung des Gebührenschalters und des UNI-Burn-Mechanismus vor.
In Kürze Uniswap Labs und die Uniswap Foundation haben einen Vorschlag zur Aktivierung von Protokollgebühren, zur Implementierung eines UNI-Burn-Mechanismus und zur Vereinheitlichung ihrer Abläufe in einem einzigen Rahmenwerk vorgelegt.

Gracy Chen prognostiziert einen potenziellen Bitcoin-Bullenmarkt nach der Beilegung des US-Shutdowns und der Zinssenkung der Fed.
In Kürze Bitget-CEO Gracy Chen deutet an, dass das Ende des US-Regierungsstillstands und eine mögliche Zinssenkung der Federal Reserve einen Bitcoin-Bullenmarkt auslösen könnten, der den Preis möglicherweise in Richtung 150,000 US-Dollar treiben könnte.

Startale Group stellt Soneium-integrierte SuperApp zur Optimierung vor Web3 Zugang und Token-Belohnungen
In Kürze Die Startale Group hat die Startale App auf den Markt gebracht, die Nutzer mit dem Soneium-Ökosystem und Ethereum verbindet. DeFiund Token-Belohnungen bei gleichzeitiger Vereinfachung Web3 zugreifen.

Die Ethereum Foundation treibt die Roadmap des dAI-Teams für 2026 voran und hebt ERC-8004 und x402 als wichtige Prioritäten hervor.
In Kürze Das dAI-Team der Ethereum Foundation arbeitet an einer Roadmap bis 2026, um Ethereum als dezentrales Rückgrat für KI zu etablieren, wobei der Fokus auf Standards wie ERC-8004 und x402 liegt.

