Imagem gerada por IA. Fonte: COGИITIVA
Outro dia participei de um fórum patrocinado pelo canal do meu amigo Raul Sakai onde discutimos diversos tópicos relacionados ao Digital em geral e, como não poderia deixar de ser, em dado momento entramos no assunto de AI. Falamos sobre como os algoritmos podem impulsionar os negócios digitais e como o Chat-GPT, Claude, Llama, Gemini e tantos outros chats baseados em LLMs (Large Language Models) revolucionaram a forma como podemos interagir com o computador.
Lá pelas tantas uma pessoa trouxe o tema de vazamento de informações sigilosas da Samsung no ano passado, quando funcionários da empresa usaram o Chat-GPT e forneceram grandes quantidades de dados privilegiados e potencialmente confidenciais ao prompt. O Chat-GPT então teria usado os dados fornecidos para responder à prompts de outras empresas (veja Samsung employees leaked corporate data in ChatGPT: report para mais detalhes). O evento levou inúmeras empresas a restringir o acesso de seus colaboradores à ferramentas de IA e a própria Samsung passou a restringir os prompts a 1024 caracteres. A discussão então girou em torno de se é seguro usar a IA, o quanto os seus dados ficam disponíveis para terceiros e porque estas situações ocorrem, e como evitá-las.
Download do Chat-GPT?
Primeiramente, é preciso dizer que é praticamente impossível alguém "roubar o Chat-GPT". Quase todo algoritmo de Machine Learning usa técnicas de tokenização para transformar textos em números, e armazena tabelas apenas contendo os tokens. Mesmo que um hacker tivesse acesso aos dados do algoritmo, seria praticamente impossível fazer a operação reversa sem conhecer os parâmetros usados pelo modelo. Além disso, o próprio tamanho dos modelos LLM, que foram treinados com o conteúdo "da internet inteira", como se costuma dizer, torna esta uma tarefa altamente impraticável e, de fato, até hoje não se tem notícia de que algo do gênero tenha ocorrido.
Como, então, aconteceu isso com a Samsung? A resposta está na forma como os serviços de IA generativa são contratados e usados. Os modelos generativos, apesar de terem sido pré-treinados, aprendem com os novos prompts (os pedidos ou ordens que lhes damos para que gerem um resultado). Deste modo, ao fornecer dados sensíveis ao Chat-GPT através do prompt, o colaborador da Samsung inadvertidamente treinou o próprio Chat-GPT a responder perguntas (prompts) semelhantes, enriquecendo as novas respostas com as informações do prompt anteriormente recebido. Isto quer dizer que o Chat-GPT não é seguro?
Não é tão simples! As ferramentas de IA generativa, apesar de terem sido pré-treinadas em volumes gigantescos de informações disponíveis on-line, se valem também da interpretação dos prompts para aprender mais sobre o contexto, e podem usar este aprendizado em novas respostas. Apesar desta ser uma característica de todos os modelos de IA generativa existentes, podemos tomar alguns cuidados para evitar que isto ocorra.
O Preço do Grátis
Não obstante o fato de as empresas poderem contratar, mediante assinaturas, os serviços dos principais players do mercado da IA generativa, muitos destes serviços estão acessíveis ao público em geral de forma aberta e gratuita. Isto vêm com o ônus do compartilhamento das informações. Você não pode esperar usar um serviço gratuito, qualquer que seja, e esperar que só você tenha acesso aos dados fornecidos. Isto quase nunca acontece.
Armazenar e processar dados, sejam eles dados cadastrais ou documentos, e-mails, textos ou prompts de chats de IA generativa acarreta em se contratar uma infraestrutura, com servidores, storages para armazenamento dos dados, links de internet e tudo o mais. As empresas que fornecem serviços gratuitos exploram a monetização dos dados fornecidos, quer para uso próprio, como no treinamento de modelos de IA de sua autoria, quer vendendo para empresas que fazem anúncios ou ofertam produtos para você baseando-se nos seus dados. Mas isto não quer dizer que então toda informação que entramos nos prompts sejam compartilhadas com todo mundo.
Multi-Tenancy
Ao se contratar um serviço é natural esperar do seu provedor algum grau de privacidade. Existem modalidades de contratação de serviços disponíveis para uso empresarial, corporativo ou até mesmo individual que você pode assinar e ter os seus dados protegidos e somente acessíveis por você. Naturalmente que este tipo de exclusividade tem um custo, afinal, quando falamos de IA generativa estamos falando sempre de volumes gigantescos de dados sobre os quais os algoritmos foram pré-treinados.
Vamos tomar os serviços da Open-AI fornecidos pela Microsoft no Azure como um exemplo:
Vemos acima três ofertas de serviços distintas, cada qual com suas características de privacidade, desempenho, instalação, implantação e operação.
Para entendermos melhor como isso funciona, imagine que o Chat-GPT é um grande condomínio comercial, onde muitos inquilinos (tenants) possuem salas contratadas sob diferentes modalidades. Os dados usados no pré-treinamento do Chat-GPT correspondem ao prédio como um todo, e fornecem a base comum para todos os inquilinos entrarem e acessarem os serviços comuns do condomínio. Os acessos oferecidos de forma gratuita corresponderiam então às áreas comuns.
Mas assim como num condomínio, podemos ter empresas que compram andares inteiros para depois oferecerem um aluguel particionado, não necessariamente de uma sala inteira. Este é o modelo de assinatura do provedor (provider subscription). Todos os sublocatários daquele provedor estarão sujeitos às regras de uso gerais do condomínio, mas também àquelas estabelecidas pelo provedor, como podemos observar na figura abaixo:
Existe outra modalidade em que os sublocatários podem usufruir de um isolamento maior, de maior privacidade. É o caso da chamada assinatura de locatário (tenant owned subscription). Nesta modalidade é como se cada inquilino tivesse sua própria sala no condomínio, totalmente separada das demais. Veja no diagrama abaixo como ficaria:
A última modalidade corresponde àquela em que temos um espaço de coworking: além dos serviços comuns do condomínio, os sub-locatários podem contar com serviços compartilhados oferecidos pelo provedor, sem garantias de individualização. Você não tem direito à uma sala só sua, mas pode se utilizar de qualquer mesa no grande salão aberto onde você trabalha. Veja no diagrama como se dá a oferta desta modalidade:
Single-Tenant
A outra possibilidade é você comprar um espaço só pra você. Além de poder contar com o acesso às áreas comuns, naquele espaço que você comprou só você terá acesso. Só você tem a chave, só você sabe o que guardou na sala; os seus dados são só seus. Você os compartilhará somente se quiser. Esta, naturalmente, é a modalidade mais cara, e por isto poucas companhias a adotam.
Conclusão
Privacidade custa dinheiro. Então, sempre que estiver utilizando serviços gratuitos na Internet, saiba que eles vêm com um preço embutido que é o uso e o consumo (e, não raro, o compartilhamento) dos seus dados pelo provedor do serviço. Ao utilizar ferramentas públicas, evite fornecer informações sensíveis ou privilegiadas, porque elas certamente se tornarão públicas em algum grau. Antes de fornecer dados potencialmente confidenciais da empresa onde trabalha, certifique-se antes qual é a modalidade de contratação que a companhia fez do serviço de IA e procure saber quais garantias de isolamento e privacidade se aplicam. Lembre-se que dificilmente será single-tenant, então sempre há a possibilidade de haver compartilhamento de informações. Saber disto o ajudará a adotar suas medidas de garantia de privacidade.
Comments