🎉 ¡Estamos en vivo! Todos los servicios son gratuitos durante nuestro período de prueba—los planes de precios llegarán pronto.

Preguntas frecuentes

Encuentra respuestas a preguntas comunes

El servicio de Voz a Texto es una tecnología que convierte automáticamente el contenido de voz en texto. Te ayuda a convertir rápidamente grabaciones de voz, actas de reuniones y otro contenido de audio en formato de texto editable.

Simplemente registra una cuenta, elige un plan que se adapte a tus necesidades y puedes comenzar a usar nuestro servicio. Proporcionamos una interfaz fácil de usar que te permite subir fácilmente archivos de audio y obtener resultados de conversión.

Soportamos varios formatos de audio comunes, incluyendo MP3, WAV, M4A, AAC y más. Si tienes requisitos de formato especiales, por favor contacta a nuestro equipo de atención al cliente.

Nuestra tecnología de reconocimiento de voz utiliza algoritmos de IA avanzados y puede lograr más del 98% de precisión en entornos estándar. Para audio con acentos o ruido de fondo, la precisión puede ser menor.

Nos tomamos muy en serio la seguridad de los datos del usuario. Los archivos de audio se eliminan automáticamente de nuestros servidores después de la conversión, y tus datos de voz se almacenan en plataformas seguras con cifrado líder en la industria. También tienes la opción de eliminar manualmente archivos de audio en cualquier momento.

El tiempo de conversión depende de la longitud del archivo de audio. Generalmente, el tiempo de conversión es de aproximadamente 10 segundos por minuto de audio. Para archivos de audio más largos, el tiempo de conversión puede ser mayor. Archivos de audio más largos como 1 hora pueden tardar 10 minutos en convertirse.

Ofrecemos tres modos de transcripción: Más rápido, Equilibrado y Preciso. Para audio de alta calidad, se recomienda el modo Más rápido o Equilibrado porque ambos proporcionan resultados rápidos con precisión confiable. Para grabaciones generales, Equilibrado es la mejor opción integral. Si tu audio contiene ruido de fondo, múltiples hablantes o requiere la mayor precisión, elige el modo Preciso.

Los archivos de transcripción movidos a la papelera se conservarán hasta 30 días. Serán eliminados automáticamente y permanentemente después del período de retención de 30 días. También puedes elegir eliminarlos permanentemente manualmente de la papelera en cualquier momento.

La función de reconocimiento de hablantes se utiliza para identificar los hablantes en el archivo de audio. Puedes habilitar la función de reconocimiento de hablantes haciendo clic en el botón 'Habilitar reconocimiento de hablantes'. Una vez habilitada, la función de reconocimiento de hablantes se utilizará para identificar los hablantes en el archivo de audio.

La opción "Reconocer hablante" permite a la IA identificar y separar diferentes hablantes en tu audio. Si especificas el número de hablantes, la IA puede usar esta información para mejorar la separación y etiquetado de hablantes. Si no seleccionas un número, el sistema detectará y clasificará automáticamente los hablantes por ti. Ten en cuenta que el resultado final puede no seguir estrictamente el número que elijas, ya que la IA seguirá optimizando la detección de hablantes basándose en las características reales del audio.

La opción "Escenario" permite al sistema ajustar parámetros técnicos basados en el entorno específico de tu audio. Diferentes escenarios usan diferentes configuraciones de IA, como nivel de reducción de ruido, mejora del habla y filtrado de fondo, para lograr una mejor precisión de transcripción sin requerir que configures manualmente opciones complejas. En la mayoría de los casos, el escenario "General" ofrece el rendimiento más equilibrado y es adecuado para grabaciones típicas.

"Longitud del segmento" se refiere al tamaño o duración de cada segmento de texto generado durante la transcripción de IA. Controla qué tan largo será cada bloque de texto transcrito. Los segmentos más cortos crean pausas más frecuentes y marcas de tiempo más finas, mientras que los segmentos más largos producen bloques de texto más grandes. Esta configuración afecta cómo se estructura la transcripción final, pero no cambia la precisión real de la transcripción.