O Comité Europeu para a Proteção de Dados publicou, em abril de 2025, um Relatório com orientações para gerir riscos de privacidade associados a sistemas de IA baseados em Large Language Models (LLM). O documento propõe uma abordagem prática ao longo do ciclo de vida destes sistemas, identificando riscos como a exposição de dados sensíveis, viés nos dados e insuficiência de salvaguardas. Recomenda medidas como auditorias algorítmicas, registos de risco atualizados e mecanismos de resposta a incidentes, aplicando a metodologia a casos práticos. Destaca-se ainda a necessidade de avaliações de impacto (DPIA) e programas de compliance específicos para LLM.
I. Enquadramento
O Comité Europeu para a Proteção de Dados (CEPD), no contexto do programa “Support Pool of Experts”, publicou, em abril de 2025, um Relatório (o “Relatório”) elaborado por Isabel Barbera1 com recomendações para a identificação, gestão e mitigação de riscos de privacidade e proteção de dados associados a sistemas de inteligência artificial (IA) baseados em Large Language Models (LLM).
Este Relatório, embora não vinculativo, reveste-se de especial relevância para os prestadores, responsáveis pela implementação e utilizadores de LLM, bem como para as Autoridades de Controlo, uma vez que apresenta uma abordagem prática e estruturada de gestão de risco que abrange todo o ciclo de vida do modelo, recorrendo também a casos práticos ilustrativos. Ou seja, consolida os critérios normativos, técnicos e organizacionais com impacto relevante na interpretação e aplicação do Regulamento Geral sobre a Proteção de Dados (RGPD) no contexto de sistemas de IA generativos e de processamento de linguagem natural em grande escala, sendo um suporte (e nunca um substituto) da avaliação de impacto de proteção de dados.
Destacamos, em primeiro lugar, a proposta de definição do que é um LLM e a sua distinção do conceito de sistema de IA. A breve referência a Agentic AI, bem como o esforço na definição da mesma e na identificação dos seus benefícios e riscos também demonstra o crescimento acentuado deste tipo de sistemas.
Igualmente útil é a enumeração de indicadores de performance dos LLM (que podem ajudar os responsáveis pela implementação na sua avaliação e seleção) e o tipo de deployment geralmente associado aos LLM – LLM as a service, LLM “off-the shelf” e “self-developed LLM”2.
II. Riscos de Privacidade ao Longo do Ciclo de Vida
O ciclo de vida destes sistemas de LLM é marcado por várias fases com fluxos de dados associados. São identificados vários riscos que podem ocorrer em cada uma dessas fases, de entre os quais destacamos:
Fase 1: iniciação e design
- Nesta fase, tomam-se decisões sobre os requisitos de dados, métodos de recolha e estratégias de processamento.
Risco: a seleção de fontes de dados pode representar riscos se incluir dados pessoais ou sensíveis sem salvaguardas adequadas.
Fase 2: preparação e pré-processamento dos dados
- Os dados brutos são recolhidos, limpos, por vezes anonimizados e preparados para treino ou afinação. As fontes incluem dados da web, repositórios públicos, dados proprietários ou obtidos por parcerias.
Riscos: - Inclusão inadvertida de dados pessoais e/ou sensíveis;
- Violação dos princípios da limitação da finalidade, minimização dos dados e licitude de tratamento;
- Viés nos dados pode resultar em previsões injustas ou discriminatórias.
Fase 3: treino do modelo
- Utilizam-se os dados preparados para treinar o modelo, num processo de grande escala.
Risco: o modelo pode memorizar dados sensíveis e expô-los deforma massiva nos resultados, violando a privacidade.
- O sistema pode inadvertidamente memorizar dados sensíveis que podem ser expostos nos outputs.
Fase 4: verificação e validação
- Avaliação do modelo com conjuntos de teste, muitas vezes baseados em cenários reais.
Risco: dados reais podem expor informações sensíveis se não forem anonimizados.
Fase 5: implementação
- O modelo começa a interagir com dados em tempo real de utilizadores e outros sistemas.
Riscos: - Recolha e tratamento de inputs dos utilizadores que podem conter dados pessoais e/ou dados sensíveis;
- Risco de inferência de dados pessoais, mesmo sem acesso direto a atributos identificadores.
Fase 6: operação e monitorização
- Entrada contínua de dados para monitorização e otimização do desempenho.
Risco: registos de interações podem reter dados pessoais, aumentando o risco de fugas ou uso indevido.
Fase 7: reavaliação, manutenção e atualizações
- Podem ser recolhidos novos dados para atualizar ou melhorar o modelo.
Risco: utilizar dados reais de utilizadores sem consentimento pode violar princípios de privacidade.
Fase 8: desativação
- Os dados associados ao modelo são arquivados ou eliminados.
Risco: a não eliminação adequada de dados pessoais pode causar vulnerabilidades a longo prazo.
III. Identificação e Avaliação de Riscos
No Relatório são identificados vários fatores de risco para a privacidade e proteção de dados pessoais, incluindo:
- A natureza particularmente sensível dos dados tratados (e.g., dados de categorias especiais, tais como dados biométricos, e dados de pessoas vulneráveis, tais como menores).
- O volume dos dados tratados;
- A baixa qualidade dos dados utilizados para input e para o treino do sistema;
- Insuficientes medidas de segurança.
A metodologia para a avaliação dos riscos deverá assentar em dois vetores principais:
- Severidade do potencial impacto sobre os titulares dos dados (atendendo a critérios como a intensidade, a duração e a reversibilidade do impacto).
- Probabilidade de ocorrência (tendo em consideração critérios como a frequência de uso, o grau de autonomia do sistema, a existência de supervisão humana e o contexto de utilização).
IV. Medidas Técnicas e Organizacionais recomendadas
Em particular, são propostas estratégias para controlo do risco e várias e detalhadas medidas de mitigação, especificando quais cabem aos prestadores e aos responsáveis pela implantação destes sistemas. Entre as principais orientações, destacam-se as seguintes:
- Documentação integral das fontes de dados utilizadas no treino dos modelos;
- Implementação de sistemas de auditoria algorítmica e deteção de viés;
- Estabelecimento de registos de risco atualizados periodicamente que incluam, entre o mais, detalhes de Data Protection Impact Assessments (DPIA) realizados e de medidas de mitigação adotadas;
- Criação de um mecanismo de resposta a incidentes;
- Adoção de um modelo de governance de risco ativo, com ciclos contínuos de avaliação, testagem e adaptação de medidas de controlo.
O Relatório aplica ainda esta metodologia em três casos práticos, a saber: (i) um chatbot para questões do consumidor; (ii) um sistema de LLM para monitorizar o progresso de alunos; e (iii) um assistente de IA para marcar viagens. Na Secção 10 do Relatório são também compilados vários instrumentos e benchmarks úteis para prestadores e utilizadores de sistemas de LLM.
V. Conclusões e Recomendações
O Relatório representa um avanço significativo na consolidação de princípios orientadores para o desenvolvimento e utilização de LLM à luz de regras de proteção de dados. Este tema foi também abordado pelo CEDP na Opinião 28/2024, de 18 de dezembro de 2024, aqui analisada.
Neste sentido, de forma a assegurar o cumprimento das Recomendações, é essencial proceder a:
- Avaliações de riscos e DPIA específicas para LLM;
- Definição de políticas internas e de procedimentos de mitigação de riscos;
- Adoção de programas internos de compliance de IA.
A equipa de Propriedade Intelectual, Tecnologia e Dados Pessoais continua a acompanhar os desenvolvimentos neste domínio.
_______________________
1Isabel Barberá | LinkedIn
2Ver descrição completa na página 27 do Relatório.