Produto
Qualidade
Crie formulários com critérios fatais, críticos e desejáveis. A IA avalia as Conversas encerradas dentro do escopo definido, com justificativa e trecho citado por critério.
Atualizado em
O que é
Qualidade é o módulo de monitoria das Conversas atendidas. Você desenha um Formulário com a rubrica que define o que importa medir, define o escopo (quais Conversas devem ser avaliadas) e a IA roda avaliações automáticas sobre as Conversas elegíveis quando elas encerram. Cada avaliação retorna uma nota final, status e justificativa por critério com trecho citado da Conversa.
A monitoria é integrada ao produto — não é ferramenta externa. Os resultados ficam ligados à Conversa, ao Atendente, à Fila, à Campanha e à Operação correspondentes, e alimentam dashboards de qualidade.
Formulários (rubricas)
Um Formulário define a rubrica usada para medir qualidade. Campos principais:
- Nome e descrição.
- Escopo — quais Conversas o Formulário cobre. Filtros disponíveis: Filas, Campanhas, tipos de Canal. Você pode ter Formulários diferentes para SAC, Cobrança, Vendas, ou um único Formulário cobrindo tudo.
- Trigger — quando avaliar (padrão: ao encerrar a Conversa) e a
taxa de amostragem (
sample_rate: 1.0 avalia 100%; 0.1 avalia 10% aleatórios). - Nota mínima de aprovação — limiar abaixo do qual a Conversa é marcada como “abaixo do alvo” no dashboard. Padrão: 70.
- Modelo de IA —
gpt-4o-minipor padrão.
Critérios
Cada critério é uma pergunta avaliada pela IA. Tem três campos estruturais:
- Pergunta (texto livre) — o que se quer medir.
- Tipo (peso semântico):
- Fatal — reprova a avaliação se descumprido, independentemente do resto.
- Crítico — pesa fortemente na nota.
- Desejável — soma pontos quando cumprido, mas não derruba a nota.
- Peso (numérico) — multiplica a pontuação do critério.
- Prompt da IA (opcional) — instrução adicional para a IA aplicar ao avaliar este critério (ex.: “considere conforme se o atendente usou a saudação institucional”).
- Citar trecho (booleano, padrão sim) — pede à IA que devolva o trecho da Conversa que justifica a resposta.
Como a avaliação acontece
- Conversa encerra. O sistema verifica quais Formulários ativos têm escopo cobrindo essa Conversa.
- Amostragem. Para cada Formulário aplicável, o
sample_ratedecide se a Conversa entra na fila de avaliação. - Snapshot do Formulário. A versão atual do Formulário é
congelada na avaliação (campo
form_snapshot). Editar o Formulário depois não afeta avaliações já feitas — o histórico permanece coerente. - Execução. A IA recebe a transcrição da Conversa e cada critério
da rubrica. Para cada critério, devolve resposta (
conforme,nao_conforme,na), pontos atribuídos, justificativa e trecho citado da Conversa. - Nota final. Calculada a partir dos pontos e pesos por critério; se algum critério Fatal foi descumprido, a regra desse tipo entra em vigor.
- Status. A avaliação resultante recebe um status:
- ok — executou normalmente.
- requer_revisão — IA executou mas marcou pontos de baixa confiança ou ambiguidade que pedem olho humano.
- erro — falhou (timeout, indisponibilidade do modelo, transcrição incompleta) com motivo registrado.
A avaliação registra também latência da IA, tokens consumidos (input/output) e o modelo usado.
Rubrica vs. nota final
São coisas diferentes — vale a distinção explícita:
- Rubrica é o conjunto de critérios do Formulário. Define o que conta como qualidade para esta Operação/Campanha/Fila.
- Nota final é o número 0-100 atribuído à Conversa avaliada com base na execução da rubrica.
Mudar a rubrica não recalcula avaliações antigas — para isso, é preciso
reavaliar as Conversas com o Formulário atualizado. A reavaliação
gera nova linha em qa_evaluations, preservando a anterior. O histórico
não se sobrescreve.
Calibração
Calibração é o processo de garantir que a IA (e os supervisores humanos, quando há revisão manual) convergem para a mesma interpretação da rubrica. O ciclo recomendado:
- Selecione um lote de Conversas variadas (boas, ruins, borderline).
- Avaliações em paralelo. A IA roda automaticamente. Supervisores experientes avaliam o mesmo lote manualmente.
- Compare divergências. Onde IA e humano discordaram, debata o
critério: a pergunta está ambígua? O
ia_promptestá orientando para a interpretação errada? O trecho citado pela IA é coerente com a justificativa? - Ajuste o Formulário. Refine perguntas, ajuste pesos, melhore os prompts dos critérios.
- Reavalie o lote com o Formulário atualizado e repita até convergir num nível aceitável de concordância.
Integração com Conversas e gravações
- Avaliações ficam ligadas à Conversa original. Abrir a avaliação abre também a Conversa, permitindo verificar o trecho citado no contexto.
- Para Conversas de voz, a IA avalia sobre a transcrição da
gravação. Sem gravação habilitada na Campanha (modo
disabled), a Conversa de voz não é avaliada. - Para chat, a IA avalia sobre o histórico de mensagens. Materiais enviados durante a Conversa entram no contexto avaliado.
Dashboards
A área Dashboard consolida resultados ao longo do tempo:
- Nota média por Atendente, Fila, Campanha e Operação.
- Distribuição por status (ok / requer_revisão / erro).
- Critérios mais reprovados — ajuda a identificar pontos de treinamento recorrentes.
- Evolução temporal da nota média.
Os recortes acompanham o seletor global de escopo da sidebar (Tenant → Contratante → Operação).
Boas práticas
- Comece com poucos critérios bem desenhados. Cinco critérios claros valem mais que vinte ambíguos.
- Use peso, não tipo, para nuançar. Reserve “fatal” para inegociáveis e use peso para refletir importância relativa entre críticos e desejáveis.
- Escreva
ia_promptespecífico quando o critério depende de contexto da operação (jargão de produto, ritual de saudação, etc.). - Comece com
sample_rate = 0.2em operações grandes para validar custo e qualidade antes de escalar para 100%. - Reveja avaliações com
requer_revisãosemanalmente. São o insumo mais barato para entender ruído da rubrica. - Reavalie conscientemente. Mudou a rubrica? Decida se a reavaliação cobre só o lote de calibração ou um período inteiro — e comunique a equipe sobre o impacto histórico.
Erros comuns
- Marcar tudo como Fatal. A rubrica reprova quase tudo, perde credibilidade, equipe ignora.
- Não congelar o snapshot mentalmente. Esquecer que avaliações antigas usaram outra versão do Formulário leva a comparações injustas.
- Avaliar 100% sem amostragem em operação muito grande. Custo escala com volume. Comece amostrado, aumente quando o sinal e o custo estabilizarem.
- Confundir
requer_revisãocom erro. É um aviso de que a IA não está confiante; vale revisar manualmente. - Esperar avaliação em Conversa de voz sem gravação. Sem áudio gravado não há transcrição para avaliar.