Häufig gestellte Fragen
Finden Sie Antworten auf häufige Fragen
Ein Sprach-zu-Text-Service ist eine Technologie, die Sprachinhalte automatisch in Text umwandelt. Er hilft Ihnen dabei, Sprachaufnahmen, Meeting-Protokolle und andere Audioinhalte schnell in bearbeitbares Textformat zu konvertieren.
Registrieren Sie einfach ein Konto, wählen Sie einen Plan, der Ihren Bedürfnissen entspricht, und Sie können unseren Service nutzen. Wir bieten eine benutzerfreundliche Oberfläche, mit der Sie einfach Audiodateien hochladen und Konvertierungsergebnisse erhalten können.
Wir unterstützen verschiedene gängige Audioformate, einschließlich MP3, WAV, M4A, AAC und mehr. Wenn Sie spezielle Format-Anforderungen haben, wenden Sie sich bitte an unser Kundenservice-Team.
Unsere Spracherkennungstechnologie verwendet fortschrittliche KI-Algorithmen und kann in Standard-Umgebungen über 98% Genauigkeit erreichen. Bei Audio mit Akzenten oder Hintergrundgeräuschen kann die Genauigkeit niedriger sein.
Wir nehmen die Datensicherheit unserer Nutzer sehr ernst. Audiodateien werden nach der Konvertierung automatisch von unseren Servern gelöscht, und Ihre Sprachdaten werden auf sicheren Plattformen mit branchenführender Verschlüsselung gespeichert. Sie haben auch die Möglichkeit, Audiodateien jederzeit manuell zu löschen.
Die Konvertierungszeit hängt von der Länge der Audiodatei ab. Im Allgemeinen beträgt die Konvertierungszeit etwa 10 Sekunden pro Minute Audio. Bei längeren Audiodateien kann die Konvertierungszeit länger sein. Längere Audiodateien wie 1 Stunde können 10 Minuten zur Konvertierung benötigen.
Wir bieten drei Transkriptionsmodi an: Schnellste, Ausgewogen und Genau. Für hochwertiges Audio wird der Schnellste- oder Ausgewogen-Modus empfohlen, da beide schnelle Ergebnisse mit zuverlässiger Genauigkeit liefern. Für allgemeine Aufnahmen ist Ausgewogen die beste Allround-Option. Wenn Ihr Audio Hintergrundgeräusche, mehrere Sprecher enthält oder höchste Präzision erfordert, wählen Sie den Genau-Modus.
In den Papierkorb verschobene Transkriptionsdateien werden bis zu 30 Tage aufbewahrt. Sie werden nach der 30-tägigen Aufbewahrungsfrist automatisch und dauerhaft gelöscht. Sie können sie auch jederzeit manuell aus dem Papierkorb dauerhaft löschen.
Die Sprechererkennungsfunktion wird verwendet, um die Sprecher in der Audiodatei zu identifizieren. Sie können die Sprechererkennungsfunktion aktivieren, indem Sie auf die Schaltfläche 'Sprechererkennung aktivieren' klicken. Nach der Aktivierung wird die Sprechererkennungsfunktion verwendet, um die Sprecher in der Audiodatei zu identifizieren.
Die Option "Sprecher erkennen" ermöglicht es der KI, verschiedene Sprecher in Ihrem Audio zu identifizieren und zu trennen. Wenn Sie die Anzahl der Sprecher angeben, kann die KI diese Information verwenden, um die Sprechertrennung und -kennzeichnung zu verbessern. Wenn Sie keine Anzahl auswählen, erkennt und klassifiziert das System automatisch Sprecher für Sie. Bitte beachten Sie, dass das Endergebnis möglicherweise nicht genau der von Ihnen gewählten Anzahl entspricht, da die KI die Sprechererkennung weiterhin basierend auf tatsächlichen Audioeigenschaften optimiert.
Die Option "Szenario" ermöglicht es dem System, technische Parameter basierend auf der spezifischen Umgebung Ihres Audios anzupassen. Verschiedene Szenarien verwenden verschiedene KI-Einstellungen - wie Rauschunterdrückungsstufe, Sprachverbesserung und Hintergrundfilterung - um eine bessere Transkriptionsgenauigkeit zu erreichen, ohne dass Sie komplexe Optionen manuell konfigurieren müssen. In den meisten Fällen bietet das "Allgemein"-Szenario die ausgewogenste Leistung und ist für typische Aufnahmen geeignet.
"Segmentlänge" bezieht sich auf die Größe oder Dauer jedes Textsegments, das während der KI-Transkription generiert wird. Sie steuert, wie lang jeder Block des transkribierten Textes sein wird. Kürzere Segmente erzeugen häufigere Unterbrechungen und feinere Zeitstempel, während längere Segmente größere Textblöcke erzeugen. Diese Einstellung beeinflusst, wie das endgültige Transkript strukturiert ist, ändert aber nicht die tatsächliche Genauigkeit der Transkription.