Direcionamentos e boas práticas

raul.oliveira@ilhasoft.com.br Atualizado por raul.oliveira@ilhasoft.com.br

Para termos a Inteligência construída da melhor forma possível, ou seja, com um dataset assertivo em suas predições, devemos seguir algumas boas práticas na hora de criar as frases de treinamento.

Nesse artigo, aprenderemos sobre alguns métodos e boas práticas de treinamento no BotHub.

Direcionamentos principais

Dentro das boas práticas, existem alguns direcionamentos principais que precisamos seguir, são eles:

  • Quantidade de frases
  • Balanceamento de quantidade de frases
  • Especificidade do vocabulário
  • Variação das estruturas de frases

Cada um desses tópicos está explicado abaixo.

Quantidade de frases

A maioria dos modelos de algoritmo do NLP se baseiam na quantidade de exemplos de treinamento para aumentar a taxa de predição por intenção. Então, para ter uma alta assertividade precisamos equilibrar a relação entre quantidade de frases x número de intenções no seu dataset

Abaixo, algumas classificações da qualidade do dataset de acordo com a quantidade de frases treinadas por intenção, para um exemplo com 5 intenções ou menos.

  • Mínimo: 10 frases por intenção;
  • Bom: 25 frases por intenção;
  • Ótimo: 40 frases por intenção.

Alguns fatores podem influenciar nesses números, como a quantidade de intenções total da inteligência (que pode influenciar o número de falsos positivos). Quanto mais intenções, mais frases por intenção são necessárias.

O algoritmo escolhido também interfere nesse número. O algoritmo que usa o BERT, por exemplo, como faz uso de um modelo pré-treinado, tende a precisar de bem menos frases para ter um bom resultado.

Balanceamento

Usar um número balanceado de frases em todas as intenções da sua Inteligência diminui a chances de haver um enviesamento para uma intenção específica.

Por exemplo, caso a inteligência tenha uma intenção X com 50 frases e uma intenção Y com 200 frases, a probabilidade que o algoritmo classifique entradas como da intenção Y podem ser maiores por possuir mais exemplos. (considerando que a entrada foi uma nova frase nunca vista pelo treinamento)

Então, uma boa prática é ter todas as intenções do seu dataset com um número aproximado de frases, se possível.

Especificidade de vocabulário

Para diminuir a quantidade de falsos positivos no dataset e aumentar a precisão, recomendamos que as frases geradas no treinamento respeitem a regra de especificidade por tópico.

Essa regra define que todas as palavras específicas de uma intenção devem ser adicionadas apenas nas frases daquela intenção, e palavras que não devem ser interpretadas como de nenhuma intenção devem ser distribuídas entre todas as intenções para que o algoritmo não associe aquelas palavras a nenhum tópico específico.

Por exemplo, se eu tenho uma inteligência que identifica pedidos de uma lanchonete, com as intenções "comidas" e "bebidas" preciso associar palavras relacionadas a cada uma das intenções, como "sanduíche" para a primeira e "suco" para segunda.

Geraríamos, assim, as frases de treinamento com os termos "gostaria de comprar um sanduíche" para a intenção "comidas" e "quero comprar um suco" para a intenção "bebidas"

Note que as palavras específicas como "sanduíche" e "suco" estão associadas cada uma a uma intenção, enquanto as palavras "gostaria", "quero", "de", "comprar" e "um" estão distribuídas entre as duas intenções de modo que se eu digitar apenas "eu gostaria de comprar", a inteligência não vai associar a nenhuma das duas intenções, pois teria uma confidência muito baixa.

Variação das estruturas de frases

A estrutura das frases também é um fator importante para a interpretação de uma entrada do usuário. Por exemplo, se a frase "eu gostaria de comer uma pizza" estiver treinada na intenção "comida", o algoritmo classificaria a frase "eu amaria comer uma pizza" como a mesma intenção dada a estrutura da frase ser similar (dada uma quantidade boa de frases treinadas nessa estrutura).

Isso significa que quanto mais variados forem as frases de exemplo, tanto em estruturas, quanto em palavras, maior é a probabilidade da inteligência predizer mais palavras relacionadas a essa intenção.

Como a gente se saiu?

Treinando sua inteligência

Contato