Produto

Qualidade

Crie formulários com critérios fatais, críticos e desejáveis. A IA avalia as Conversas encerradas dentro do escopo definido, com justificativa e trecho citado por critério.

Atualizado em 03 de maio de 2026

O que é

Qualidade é o módulo de monitoria das Conversas atendidas. Você desenha um Formulário com a rubrica que define o que importa medir, define o escopo (quais Conversas devem ser avaliadas) e a IA roda avaliações automáticas sobre as Conversas elegíveis quando elas encerram. Cada avaliação retorna uma nota final, status e justificativa por critério com trecho citado da Conversa.

A monitoria é integrada ao produto — não é ferramenta externa. Os resultados ficam ligados à Conversa, ao Atendente, à Fila, à Campanha e à Operação correspondentes, e alimentam dashboards de qualidade.

Formulários (rubricas)

Um Formulário define a rubrica usada para medir qualidade. Campos principais:

Nome e descrição.
Escopo — quais Conversas o Formulário cobre. Filtros disponíveis: Filas, Campanhas, tipos de Canal. Você pode ter Formulários diferentes para SAC, Cobrança, Vendas, ou um único Formulário cobrindo tudo.
Trigger — quando avaliar (padrão: ao encerrar a Conversa) e a taxa de amostragem (sample_rate: 1.0 avalia 100%; 0.1 avalia 10% aleatórios).
Nota mínima de aprovação — limiar abaixo do qual a Conversa é marcada como “abaixo do alvo” no dashboard. Padrão: 70.
Modelo de IA — gpt-4o-mini por padrão.

Critérios

Cada critério é uma pergunta avaliada pela IA. Tem três campos estruturais:

Pergunta (texto livre) — o que se quer medir.
Tipo (peso semântico):
- Fatal — reprova a avaliação se descumprido, independentemente do resto.
- Crítico — pesa fortemente na nota.
- Desejável — soma pontos quando cumprido, mas não derruba a nota.
Peso (numérico) — multiplica a pontuação do critério.
Prompt da IA (opcional) — instrução adicional para a IA aplicar ao avaliar este critério (ex.: “considere conforme se o atendente usou a saudação institucional”).
Citar trecho (booleano, padrão sim) — pede à IA que devolva o trecho da Conversa que justifica a resposta.

Como a avaliação acontece

Conversa encerra. O sistema verifica quais Formulários ativos têm escopo cobrindo essa Conversa.
Amostragem. Para cada Formulário aplicável, o sample_rate decide se a Conversa entra na fila de avaliação.
Snapshot do Formulário. A versão atual do Formulário é congelada na avaliação (campo form_snapshot). Editar o Formulário depois não afeta avaliações já feitas — o histórico permanece coerente.
Execução. A IA recebe a transcrição da Conversa e cada critério da rubrica. Para cada critério, devolve resposta (conforme, nao_conforme, na), pontos atribuídos, justificativa e trecho citado da Conversa.
Nota final. Calculada a partir dos pontos e pesos por critério; se algum critério Fatal foi descumprido, a regra desse tipo entra em vigor.
Status. A avaliação resultante recebe um status:
- ok — executou normalmente.
- requer_revisão — IA executou mas marcou pontos de baixa confiança ou ambiguidade que pedem olho humano.
- erro — falhou (timeout, indisponibilidade do modelo, transcrição incompleta) com motivo registrado.

A avaliação registra também latência da IA, tokens consumidos (input/output) e o modelo usado.

Rubrica vs. nota final

São coisas diferentes — vale a distinção explícita:

Rubrica é o conjunto de critérios do Formulário. Define o que conta como qualidade para esta Operação/Campanha/Fila.
Nota final é o número 0-100 atribuído à Conversa avaliada com base na execução da rubrica.

Mudar a rubrica não recalcula avaliações antigas — para isso, é preciso reavaliar as Conversas com o Formulário atualizado. A reavaliação gera nova linha em qa_evaluations, preservando a anterior. O histórico não se sobrescreve.

Calibração

Calibração é o processo de garantir que a IA (e os supervisores humanos, quando há revisão manual) convergem para a mesma interpretação da rubrica. O ciclo recomendado:

Selecione um lote de Conversas variadas (boas, ruins, borderline).
Avaliações em paralelo. A IA roda automaticamente. Supervisores experientes avaliam o mesmo lote manualmente.
Compare divergências. Onde IA e humano discordaram, debata o critério: a pergunta está ambígua? O ia_prompt está orientando para a interpretação errada? O trecho citado pela IA é coerente com a justificativa?
Ajuste o Formulário. Refine perguntas, ajuste pesos, melhore os prompts dos critérios.
Reavalie o lote com o Formulário atualizado e repita até convergir num nível aceitável de concordância.

Integração com Conversas e gravações

Avaliações ficam ligadas à Conversa original. Abrir a avaliação abre também a Conversa, permitindo verificar o trecho citado no contexto.
Para Conversas de voz, a IA avalia sobre a transcrição da gravação. Sem gravação habilitada na Campanha (modo disabled), a Conversa de voz não é avaliada.
Para chat, a IA avalia sobre o histórico de mensagens. Materiais enviados durante a Conversa entram no contexto avaliado.

Dashboards

A área Dashboard consolida resultados ao longo do tempo:

Nota média por Atendente, Fila, Campanha e Operação.
Distribuição por status (ok / requer_revisão / erro).
Critérios mais reprovados — ajuda a identificar pontos de treinamento recorrentes.
Evolução temporal da nota média.

Os recortes acompanham o seletor global de escopo da sidebar (Tenant → Contratante → Operação).

Boas práticas

Comece com poucos critérios bem desenhados. Cinco critérios claros valem mais que vinte ambíguos.
Use peso, não tipo, para nuançar. Reserve “fatal” para inegociáveis e use peso para refletir importância relativa entre críticos e desejáveis.
Escreva ia_prompt específico quando o critério depende de contexto da operação (jargão de produto, ritual de saudação, etc.).
Comece com sample_rate = 0.2 em operações grandes para validar custo e qualidade antes de escalar para 100%.
Reveja avaliações com requer_revisão semanalmente. São o insumo mais barato para entender ruído da rubrica.
Reavalie conscientemente. Mudou a rubrica? Decida se a reavaliação cobre só o lote de calibração ou um período inteiro — e comunique a equipe sobre o impacto histórico.

Erros comuns

Marcar tudo como Fatal. A rubrica reprova quase tudo, perde credibilidade, equipe ignora.
Não congelar o snapshot mentalmente. Esquecer que avaliações antigas usaram outra versão do Formulário leva a comparações injustas.
Avaliar 100% sem amostragem em operação muito grande. Custo escala com volume. Comece amostrado, aumente quando o sinal e o custo estabilizarem.
Confundir requer_revisão com erro. É um aviso de que a IA não está confiante; vale revisar manualmente.
Esperar avaliação em Conversa de voz sem gravação. Sem áudio gravado não há transcrição para avaliar.