Modulate lanciert Velma Transcribe, um Kosten und Genauigkeit in der Spracherkennung neu zu definieren

(SeaPRwire) – BOSTON, MA – 23.03.2026 – (SeaPRwire) – Modulate hat eine neue Speech-to-Text-API eingeführt, die darauf abzielt, die Art und Weise, wie Unternehmen konversationelle Audiodaten in großem Maßstab verarbeiten und verstehen, grundlegend zu verändern. Das neu eingeführte Velma Transcribe ist als kosteneffiziente Hochleistungs-Transkriptionslösung positioniert, die den wachsenden Bedarf an Echtzeit-Sprachdatenanalysen in verschiedenen Branchen deckt – vom Kundenservice bis hin zu sozialen Plattformen und KI-gesteuerten Anwendungen.

Die Veröffentlichung unterstreicht einen breiteren Branchentrend, die Infrastruktur für Sprachintelligenz zugänglicher und wirtschaftlich rentabler zu machen. Durch die deutliche Senkung der Kostenbarriere für Transkriptionen ermöglicht das neueste Angebot von Modulate Unternehmen, die Nutzung von Sprachdaten auf eine breitere Palette von Anwendungen auszuweiten, darunter Echtzeit-Sprachassistenten, Analyse-Pipelines und globale Kommunikationsplattformen.

Velma Transcribe basiert auf dem Ensemble Listening Model (ELM) von Modulate, einem forschungsorientierten Ansatz, der mehrere spezialisierte Transkriptionsmodelle koordiniert, um die Leistung zu optimieren. Diese auf Ensembles basierende Architektur verbessert die Transkriptionsgenauigkeit, reduziert die Latenz und erhöht die Kosteneffizienz im Vergleich zu herkömmlichen Systemen mit nur einem Modell. Die Plattform hat bei anerkannten Benchmarks wie Earnings-22 und dem AMI Meeting Corpus eine starke Leistung gezeigt, insbesondere bei der Handhabung komplexer Konversationsszenarien mit mehreren Sprechern.

Unternehmensführungskräfte betonen, dass die Lösung über herkömmliche Transkriptionsfunktionen hinausgeht. Während sich viele Systeme ausschließlich auf die Umwandlung von Sprache in Text konzentrieren, integriert Velma Transcribe ein tieferes kontextuelles Verständnis und unterstützt eine breitere Palette an Konversationserkenntnissen. Gleichzeitig ist die API so konzipiert, dass sie für Entwickler zugänglich bleibt, die schnelle und zuverlässige Transkripte ohne zusätzlichen analytischen Overhead benötigen.

Zusätzlich zu den Transkriptionsfunktionen umfasst die Plattform eine Reihe unternehmensorientierter Funktionen, darunter Emotionserkennung in über 20 Kategorien, Akzenterkennung für mehr als 20 Variationen und mehrsprachige Unterstützung für über 70 Sprachen. Sie beinhaltet zudem fortschrittliche Funktionalitäten wie Sprecher-Diarisierung, Erkennung und Schwärzung personenbezogener Daten (PII) sowie Echtzeit-Streaming-Unterstützung für Live-Anwendungen.

Einer der bemerkenswertesten Aspekte von Velma Transcribe ist das Preismodell. Mit Transkriptionskosten von etwa 0,03 USD pro Audiostunde bietet die Plattform eine deutliche Reduzierung gegenüber den marktüblichen Preisen. Diese Preisstruktur ermöglicht es Unternehmen, große Mengen an Sprachdaten wirtschaftlicher zu verarbeiten, was neue Möglichkeiten für datengestützte Entscheidungsfindungen und Monetarisierungsstrategien eröffnet.

Das System ist so konzipiert, dass es in realen Konversationsumgebungen zuverlässig funktioniert, in denen sich überschneidende Sprache, Unterbrechungen, unterschiedliche Akzente und Hintergrundgeräusche herkömmliche Transkriptionstools oft vor Herausforderungen stellen. Benchmark-Ergebnisse zeigen, dass Velma Transcribe die Fehlerraten im Vergleich zu mehreren etablierten Lösungen erheblich reduziert, was seine Eignung für den Einsatz auf Unternehmensebene unterstreicht.

Zur Unterstützung produktionsreifer Anwendungen umfasst die Plattform Funktionen wie Batch- und Streaming-Transkriptions-Endpunkte, strukturierte Ausgaben mit Zeitstempeln, Latenzzeiten im Sub-Sekundenbereich für Live-Anwendungsfälle sowie eine Richtlinie zur Null-Datenspeicherung, die auf die Verbesserung von Datenschutz und Compliance ausgelegt ist. Unterstützt durch ISO 27001-zertifizierte Sicherheitspraktiken positionieren diese Fähigkeiten die Lösung für einen sicheren Einsatz in regulierten und datensensiblen Umgebungen.

Velma Transcribe ist Teil der umfassenderen Velma 2.0-Suite von Sprachintelligenzmodellen von Modulate, die darauf abzielen, KI-Systemen eine fortschrittlichere „Listening Layer“ (Ebene des Zuhörens) bereitzustellen. Dieser Ansatz ermöglicht es Unternehmen, über eine einfache Transkription hinaus zu einem tieferen Verständnis von Konversationen zu gelangen und Anwendungsfälle wie Betrugserkennung, Stimmungsanalyse, Compliance-Überwachung und operative Echtzeit-Einblicke zu unterstützen.

Die Lösung ist ab sofort verfügbar, wobei die nutzungsbasierte Preisgestaltung sowohl auf kleine Bereitstellungen als auch auf hochvolumige Unternehmens-Workloads ausgelegt ist.

Über Modulate
Modulate ist ein Unternehmen für Sprachintelligenztechnologie, das sich auf die Entwicklung von KI-Modellen und APIs konzentriert, die ein skalierbares Verständnis von realen Konversations-Audiodaten ermöglichen. Die Lösungen kombinieren Spracherkennung, akustische Analyse und kontextuelle Verarbeitung, um präzise, erklärbare und kosteneffiziente Sprachintelligenz für Unternehmen und Entwickler bereitzustellen.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.