Interaflow

Produto

Áudios

Carregue arquivos de áudio reaproveitáveis pelos Fluxos da Operação. Cada áudio tem nome amigável, duração detectada e caminho referenciável nos nós de playback.

Atualizado em

O que é

A Biblioteca de Áudios é o repositório de arquivos sonoros reaproveitáveis pelos Fluxos da Operação. Os Fluxos consomem esses áudios em nós de playback — anúncios institucionais (“ligação gravada para fins de qualidade”), prompts de URA (“digite 1 para… digite 2 para…”), música de espera, mensagens automáticas em chamadas outbound, e qualquer ponto que precise de áudio determinístico em vez de TTS gerado em runtime.

Como acontece com Conhecimento e Materiais, a biblioteca é escopada pela Operação — cada Operação tem sua própria biblioteca, e o seletor global de Operação na sidebar filtra o que aparece.

O que sobe na biblioteca

Cada item da biblioteca tem:

  • Nome do arquivo original — preservado para referência.
  • Nome de exibição — opcional, usado nos pickers e seletores dentro do builder de Fluxo.
  • MIME typeaudio/mpeg por padrão; outros formatos suportados conforme a operação.
  • Duração detectada automaticamente após o upload, exibida na listagem.
  • Tamanho em bytes.

Os arquivos ficam armazenados em storage interno (referenciados pelo caminho relativo) e ficam disponíveis para playback assim que o upload conclui.

Onde os Fluxos referenciam

A biblioteca é consumida pelos quatro subtipos de Fluxo nos pontos onde faz sentido tocar áudio gravado:

  • Receptivo IVR — nós de playback no canvas (anúncios, prompts de menu, música de espera).
  • Fluxo Conversacional — nó de mensagem com áudio anexado, ou saudação inicial gravada.
  • Playbook de Vendas — abertura institucional, áudios de transição configurados no formulário do Playbook.
  • Recepcionista — saudação institucional inicial.

A referência é por nome — quando você muda o conteúdo do arquivo, todos os Fluxos que apontam para aquele áudio passam a usar a versão nova.

Por que pré-gravado em vez de TTS

Para mensagens fixas e determinísticas, áudio pré-gravado bate o TTS em três pontos:

  • Latência zero em runtime — o playback é instantâneo, sem síntese.
  • Custo zero por reprodução — não consome tokens da OpenAI a cada ligação.
  • Voz consistente — a marca tem uma voz humana ou sintetizada específica, sem variação entre execuções.
  • Qualidade auditável — você ouve o arquivo antes de publicar.

TTS é melhor quando o conteúdo é dinâmico — depende de variável do contato, do mailing ou da sessão. Para isso, use os nós de mensagem do Fluxo Conversacional com voz da OpenAI Realtime; para tudo o que se repete igual, prefira áudio gravado.

Boas práticas

  • Nomeie pelo papel. “Saudação SAC”, “Aviso de gravação”, “Música de espera 30s” — nomes descritivos facilitam encontrar no picker do builder.
  • Padronize loudness. Áudios em volumes muito diferentes na mesma ligação deixam o atendimento desconfortável. Normalize antes de subir.
  • Use formatos comuns. MP3 (audio/mpeg) é o padrão e roda em todas as camadas — Asterisk, gateway, broker. Formatos exóticos podem precisar de conversão.
  • Mantenha duração curta em prompts (5-10 s no máximo) — caller desiste rápido em voz robótica longa.
  • Anote a versão no nome quando precisar manter histórico (Saudação SAC v2 — 2026-05). Substituir o arquivo perde a versão anterior.
  • Limpeza periódica. Áudios sem referência em nenhum Fluxo são desperdício de storage e poluem o picker.

Limites conhecidos

  • Sem geração de TTS na biblioteca. A biblioteca armazena arquivos; geração de voz dinâmica é responsabilidade dos Fluxos Conversacionais via Realtime API da OpenAI.
  • Sem editor inline. Edição de áudio (corte, normalização, fade-in/out) deve ser feita externamente antes do upload.
  • Sem versionamento explícito. Substituir o arquivo é “trocar in-place”; mantenha histórico no seu repositório de fontes se precisar.
  • Compartilhamento entre Operações — não há. Cada Operação tem biblioteca isolada; áudios reaproveitáveis em várias Operações precisam ser subidos em cada uma.

Erros comuns

  • Tentar usar áudio dinâmico (com nome do contato falado) na biblioteca. Para isso use TTS no nó de mensagem do Fluxo Conversacional, não a biblioteca.
  • Esquecer de selecionar Operação. A biblioteca mostra vazio até você escolher a Operação certa no seletor da sidebar.
  • Subir formato exótico que o gateway de voz não decodifica. MP3 e WAV cobrem o caso geral; opções fora desse escopo precisam de validação.
  • Mudar o arquivo sem avisar a equipe. Como a referência é por nome, todos os Fluxos pegam a versão nova imediatamente — pode surpreender quem desenhou o Fluxo.

Ver também