Como é que o Chat GPT é treinado?

como-é-o-treinamento-do-chat-gpt-768x435-718x.jpg

Se você está familiarizado com o ChatGPT, você pode ter ouvido que ele é treinado em um vasto corpus de dados. Mas o que exatamente isso significa? Neste artigo, vamos aprofundar as complexidades sobre como é treinado o ChatGPT?”

ChatGPT é um modelo de linguagem pré-treinado que foi ajustado por meio de uma combinação de técnicas de aprendizado supervisionado e por reforço. O processo de treinamento do ChatGPT envolveu a inserção de uma grande quantidade de dados textuais no modelo e ajustando seus parâmetros para que possa gerar um texto semelhante ao texto no corpus de treinamento.

O processo de aprendizagem não supervisionada foi usado para este processo, o que significa que o modelo não recebeu um feedback explícito sobre se o texto gerado estava correto ou não. Em vez disso, o modelo ajusta seus parâmetros com base na probabilidade do texto gerado ser semelhante ao texto do corpus de treinamento.

O GPT-3, modelo pai do ChatGPT-3, é um dos maiores modelos de linguagem já criados, com 175 bilhões de parâmetros e um contexto de 2048 tokens. É treinado em centenas de bilhões de palavras do Common Crawl, WebText2, Books1/2, Wikipedia em inglês e exemplos de código em CSS, JSX, Python e outras linguagens de programação.

O método de treino utilizado para o GPT-3 é pré-treino generativo, o que significa que é treinado para prever o próximo token ou palavra na frase de entrada.

Melhor alternativa ao Chat GPT

Aprendizagem supervisionada

O modelo ChatGPT foi ajustado por um processo de aprendizagem supervisionado pelos treinadores humanos. Esses treinadores participaram em conversas, assumindo tanto o papel do utilizador como do assistente de Inteligência Artificial.

Eles receberam sugestões do modelo para orientá-los na composição de suas respostas, que foram então misturadas com o conjunto de dados InstructGPT que havia sido convertido em formato de diálogo.

Aprendizagem por reforço

O modelo foi aprimorado ainda mais por meio do aprendizado por reforço usando a Otimização de Política Próxima (PPO). Treinadores humanos avaliaram as respostas geradas pelo modelo de uma conversa anterior e usaram essas avaliações para desenvolver modelos de recompensa. O modelo foi então ajustado com base nesses modelos de recompensa.

O processo de afinação foi realizado várias vezes para alcançar um desempenho melhor. Os algoritmos PPO são economicamente eficientes em comparação com outros algoritmos e possuem desempenho mais rápido, tornando-os ideais para esse processo.

A OpenAI continua a coletar informações dos usuários que interagem com ChatGPT, que podem ser utilizadas para aprimorar e refinar o modelo ainda mais.

Os usuários têm a opção de votar nas respostas do ChatGPT, seja votando a favor ou contra, e também têm a oportunidade de oferecer feedback adicional. Esses dados são utilizados para aprimorar o desempenho do modelo ainda mais e torná-lo melhor na geração de texto semelhante ao de humanos.

Dados usados para treinar o modelo

ChatGPT-3 é um modelo de linguagem desenvolvido a partir da série GPT-3.5, que foi treinado usando uma infraestrutura de supercomputação Azure AI. Ele foi treinado com uma grande quantidade de texto obtido da internet, que inclui livros, fóruns de bate-papo, artigos, sites, trabalhos acadêmicos, código e outras fontes.

O corpus de dados de texto utilizado para treinar o ChatGPT-3 tinha mais de 45Terabyte de tamanho, o que é extremamente grande e contribui para a capacidade do modelo de gerar textos similares àqueles que um jornalista ou autor poderia produzir.

Artigos relacionados

Ver mais >>