Perguntas frequentes

O serviço de Voz para Texto é uma tecnologia que converte automaticamente conteúdo de fala em texto. Ajuda você a converter rapidamente gravações de voz, atas de reuniões e outro conteúdo de áudio em formato de texto editável.

Simplesmente registre uma conta, escolha um plano que atenda às suas necessidades, e você pode começar a usar nosso serviço. Fornecemos uma interface amigável que permite carregar facilmente arquivos de áudio e obter resultados de conversão.

Suportamos vários formatos de áudio comuns, incluindo MP3, WAV, M4A, AAC e mais. Se você tem requisitos de formato especiais, entre em contato com nossa equipe de atendimento ao cliente.

Nossa tecnologia de reconhecimento de voz usa algoritmos de IA avançados e pode alcançar mais de 98% de precisão em ambientes padrão. Para áudio com sotaques ou ruído de fundo, a precisão pode ser menor.

Levamos a segurança dos dados do usuário muito a sério. Os arquivos de áudio são automaticamente excluídos de nossos servidores após a conversão, e seus dados de voz são armazenados em plataformas seguras com criptografia líder da indústria. Você também tem a opção de excluir manualmente arquivos de áudio a qualquer momento.

O tempo de conversão depende do comprimento do arquivo de áudio. Geralmente, o tempo de conversão é de aproximadamente 10 segundos por minuto de áudio. Para arquivos de áudio mais longos, o tempo de conversão pode ser maior. Arquivos de áudio mais longos como 1 hora podem levar 10 minutos para converter.

Oferecemos três modos de transcrição: Mais rápido, Equilibrado e Preciso. Para áudio de alta qualidade, o modo Mais rápido ou Equilibrado é recomendado porque ambos fornecem resultados rápidos com precisão confiável. Para gravações gerais, Equilibrado é a melhor opção completa. Se seu áudio contém ruído de fundo, múltiplos falantes ou requer a maior precisão, escolha o modo Preciso.

Arquivos de transcrição movidos para a lixeira serão mantidos por até 30 dias. Eles serão automaticamente e permanentemente excluídos após o período de retenção de 30 dias. Você também pode escolher excluí-los permanentemente manualmente da lixeira a qualquer momento.

O recurso de reconhecimento de falante é usado para identificar os falantes no arquivo de áudio. Você pode habilitar o recurso de reconhecimento de falante clicando no botão 'Habilitar reconhecimento de falante'. Uma vez habilitado, o recurso de reconhecimento de falante será usado para identificar os falantes no arquivo de áudio.

A opção "Reconhecer falante" permite que a IA identifique e separe diferentes falantes em seu áudio. Se você especificar o número de falantes, a IA pode usar essas informações para melhorar a separação e rotulagem de falantes. Se você não selecionar um número, o sistema detectará e classificará automaticamente os falantes para você. Observe que o resultado final pode não seguir rigorosamente o número que você escolhe, pois a IA continuará otimizando a detecção de falantes com base nas características reais do áudio.

A opção "Cenário" permite que o sistema ajuste parâmetros técnicos com base no ambiente específico do seu áudio. Cenários diferentes usam configurações de IA diferentes, como nível de redução de ruído, aprimoramento de fala e filtragem de fundo, para alcançar melhor precisão de transcrição sem exigir que você configure manualmente opções complexas. Na maioria dos casos, o cenário "Geral" oferece o desempenho mais equilibrado e é adequado para gravações típicas.

"Comprimento do segmento" refere-se ao tamanho ou duração de cada segmento de texto gerado durante a transcrição de IA. Controla quanto tempo cada bloco de texto transcrito será. Segmentos mais curtos criam quebras mais frequentes e timestamps mais finos, enquanto segmentos mais longos produzem blocos de texto maiores. Esta configuração afeta como a transcrição final é estruturada, mas não altera a precisão real da transcrição.

O que é o Serviço de Voz para Texto?

Como começo?

Quais formatos de áudio são suportados?

Quão precisa é a conversão?

Como a segurança dos dados é garantida?

Quanto tempo leva para converter um arquivo de áudio na transcrição de voz para texto?

Recomendações de modos de transcrição de voz para texto?

Por quanto tempo os dados de transcrição permanecerão na lixeira?

Como usar o recurso de reconhecimento de falante na transcrição de voz para texto?

O que significa "Reconhecer falante" na transcrição de voz para texto?

O que significa "Cenário" na transcrição de voz para texto?

O que significa "Comprimento do segmento" na transcrição de voz para texto?