常见问题

语音转文字服务是一种将语音内容自动转换为文字的技术。它可以帮助您快速将语音录音、会议纪要等音频内容转换为可编辑的文字格式。

只需注册一个账户，选择适合您需求的套餐，就可以开始使用我们的服务。我们提供用户友好的界面，让您可以轻松上传音频文件并获得转换结果。

我们支持各种常见的音频格式，包括MP3、WAV、M4A、AAC等。如果您有特殊格式要求，请联系我们的客服团队。

我们的语音识别技术采用先进的AI算法，在标准普通话环境下可以达到98%以上的准确率。对于有口音或背景噪音的音频，准确率可能会稍低。

我们非常重视用户数据安全。音频文件在转换完成后会从服务器自动删除，您的语音数据保存在安全平台上，采用行业领先的加密技术。您也可以随时手动删除音频文件。

转换时间取决于音频文件的长度。一般来说，每分钟音频大约需要10秒的转换时间。对于较长的音频文件，转换时间可能会更长。例如，1小时的音频文件可能需要10分钟来转换。

我们提供三种转录模式：最快、平衡和准确。对于高质量音频，推荐使用最快或平衡模式，因为两者都能快速提供可靠准确的结果。对于一般录音，平衡模式是最佳选择。如果您的音频包含背景噪音、多个说话者或需要最高精度，请选择准确模式。

移动到回收站的转录文件将保留最多30天。在30天保留期后，它们将被自动永久删除。您也可以随时从回收站手动永久删除它们。

说话人识别功能用于识别音频文件中的说话者。您可以通过点击"启用说话人识别"按钮来启用说话人识别功能。启用后，说话人识别功能将用于识别音频文件中的说话者。

"识别说话人"选项使AI能够识别和分离音频中的不同说话者。如果您指定说话者数量，AI可以使用此信息来提高说话人分离和标记的准确性。如果您不选择数量，系统将自动为您检测和分类说话者。请注意，最终结果可能不会严格遵循您选择的数字，因为AI仍会根据实际音频特征优化说话人检测。

"场景"选项让系统根据音频的具体环境调整技术参数。不同场景使用不同的AI设置（如降噪级别、语音增强和背景过滤），以实现更好的转录准确性，而无需您手动配置复杂选项。在大多数情况下，"通用"场景提供最平衡的性能，适合典型的录音。

"分段长度"是指在AI转录过程中生成的每个文本段的大小或持续时间。它控制每个转录文本块的长度。较短的分段创建更频繁的中断和更精细的时间戳，而较长的分段产生更大的文本块。此设置影响最终转录的结构，但不会改变转录的实际准确性。