Cientistas informáticos da Universidade Tecnológica de Nanyang descobriram como comprometer os chatbots de inteligência artificial (IA). Para o fazer, treinaram um chatbot para criar pistas que contornam as defesas de outros chatbots baseados em IA.
Os investigadores utilizaram um método duplo para “piratear” o LLM (large language model), a que chamaram “Masterkey”.
Primeiro, fizeram uma engenharia inversa da forma como os LLMs encontram e se defendem contra pedidos maliciosos. Utilizando esta informação, ensinaram o modelo a aprender automaticamente e a produzir dicas que contornam as defesas de outros LLMs. Este processo pode ser automatizado através da criação de um LLM de pirataria que se adapta e cria novos pedidos de pirataria mesmo depois de os programadores corrigirem os seus modelos.