M L

24.04.2025

Legal Alert | Recomendações sobre proteção de dados pessoais e 'Large Language Models' (LLM)

Legal Alert | Recomendações sobre proteção de dados pessoais e 'Large Language Models' (LLM)

O Comité Europeu para a Proteção de Dados publicou, em abril de 2025, um Relatório com orientações para gerir riscos de privacidade associados a sistemas de IA baseados em Large Language Models (LLM). O documento propõe uma abordagem prática ao longo do ciclo de vida destes sistemas, identificando riscos como a exposição de dados sensíveis, viés nos dados e insuficiência de salvaguardas. Recomenda medidas como auditorias algorítmicas, registos de risco atualizados e mecanismos de resposta a incidentes, aplicando a metodologia a casos práticos. Destaca-se ainda a necessidade de avaliações de impacto (DPIA) e programas de compliance específicos para LLM.

I. Enquadramento

O Comité Europeu para a Proteção de Dados (CEPD), no contexto do programa “Support Pool of Experts”, publicou, em abril de 2025, um ​Relatório​ (o “Relatório”) elaborado por Isabel Barbera1 com recomendações para a identificação, gestão e mitigação de riscos de privacidade e proteção de dados associados a sistemas de inteligência artificial (IA) baseados em Large Language Models (LLM).

Este Relatório, embora não vinculativo, reveste-se de especial relevância para os prestadores, responsáveis pela implementação e utilizadores de LLM, bem como para as Autoridades de Controlo, uma vez que apresenta uma abordagem prática e estruturada de gestão de risco que abrange todo o ciclo de vida do modelo, recorrendo também a casos práticos ilustrativos.  Ou seja, consolida os critérios normativos, técnicos e organizacionais com impacto relevante na interpretação e aplicação do Regulamento Geral sobre a Proteção de Dados (RGPD) no contexto de sistemas de IA generativos e de processamento de linguagem natural em grande escala, sendo um suporte (e nunca um substituto) da avaliação de impacto de proteção de dados.

Destacamos, em primeiro lugar, a proposta de definição do que é um LLM e a sua distinção do conceito de sistema de IA. A breve referência a Agentic AI, bem como o esforço na definição da mesma e na identificação dos seus benefícios e riscos também demonstra o crescimento acentuado deste tipo de sistemas. 

Igualmente útil é a enumeração de indicadores de performance dos LLM (que podem ajudar os responsáveis pela implementação na sua avaliação e seleção) e o tipo de deployment geralmente associado aos LLM – LLM as a service, LLM “off-the shelf” e “self-developed LLM”2.

II. Riscos de Privacidade ao Longo do Ciclo de Vida

O ciclo de vida destes sistemas de LLM é marcado por várias fases com fluxos de dados associados. São identificados vários riscos que podem ocorrer em cada uma dessas fases, de entre os quais destacamos:

Fase 1: iniciação e design

  • Nesta fase, tomam-se decisões sobre os requisitos de dados, métodos de recolha e estratégias de processamento.​
    Risco: a seleção de fontes de dados pode representar riscos se incluir dados pessoais ou sensíveis sem salvaguardas adequadas.

Fase 2: preparação e pré-processamento dos dados 

  • Os dados brutos são recolhidos, limpos, por vezes anonimizados e preparados para treino ou afinação. As fontes incluem dados da web, repositórios públicos, dados proprietários ou obtidos por parcerias.​
    Riscos:
    • Inclusão inadvertida de dados pessoais e/ou sensíveis;
    • Violação dos princípios da limitação da finalidade, minimização dos dados e licitude de tratamento; 
    • Viés nos dados pode resultar em previsões injustas ou discriminatórias. 

Fase 3: treino do modelo

  • Utilizam-se os dados preparados para treinar o modelo, num processo de grande escala.​
    Risco: o modelo pode memorizar dados sensíveis e expô-los deforma massiva nos resultados, violando a privacidade. ​
  • O sistema pode inadvertidamente memorizar dados sensíveis que podem ser expostos nos outputs.

Fase 4: verificação e validação

  • Avaliação do modelo com conjuntos de teste, muitas vezes baseados em cenários reais.​
    Risco: dados reais podem expor informações sensíveis se não forem anonimizados.

Fase 5: implementação

  • O modelo começa a interagir com dados em tempo real de utilizadores e outros sistemas.​
    Riscos:
    • Recolha e tratamento de inputs dos utilizadores que podem conter dados pessoais e/ou dados sensíveis; 
    • Risco de inferência de dados pessoais, mesmo sem acesso direto a atributos identificadores.

Fase 6: operação e monitorização

  • Entrada contínua de dados para monitorização e otimização do desempenho.​
    Risco: registos de interações podem reter dados pessoais, aumentando o risco de fugas ou uso indevido.

Fase 7: reavaliação, manutenção e atualizações

  • Podem ser recolhidos novos dados para atualizar ou melhorar o modelo.​
    Risco: utilizar dados reais de utilizadores sem consentimento pode violar princípios de privacidade. 

Fase 8: desativação

  • Os dados associados ao modelo são arquivados ou eliminados.​
    Risco: a não eliminação adequada de dados pessoais pode causar vulnerabilidades a longo prazo.

 III. Identificação e Avaliação de Riscos 

No Relatório são identificados vários fatores de risco para a privacidade e proteção de dados pessoais, incluindo: 

  1. A natureza particularmente sensível dos dados tratados (e.g., dados de categorias especiais, tais como dados biométricos, e dados de pessoas vulneráveis, tais como menores).
  2. O volume dos dados tratados;
  3. A baixa qualidade dos dados utilizados para input e para o treino do sistema;
  4. Insuficientes medidas de segurança.

metodologia para a avaliação dos riscos deverá assentar em dois vetores principais:

  1. Severidade do potencial impacto sobre os titulares dos dados (atendendo a critérios como a intensidade, a duração e a reversibilidade do impacto). 
  2. Probabilidade de ocorrência (tendo em consideração critérios como a frequência de uso, o grau de autonomia do sistema, a existência de supervisão humana e o contexto de utilização).

IV. Medidas Técnicas e Organizacionais recomendadas

Em particular, são propostas estratégias para controlo do risco e várias e detalhadas medidas de mitigação, especificando quais cabem aos prestadores e aos responsáveis pela implantação destes sistemas.  Entre as principais orientações, destacam-se as seguintes:

  1. Documentação integral das fontes de dados utilizadas no treino dos modelos;
  2. Implementação de sistemas de auditoria algorítmica e deteção de viés; 
  3. Estabelecimento de registos de risco atualizados periodicamente que incluam, entre o mais, detalhes de Data Protection Impact Assessments (DPIA) realizados e de medidas de mitigação adotadas;
  4. Criação de um mecanismo de resposta a incidentes;
  5. Adoção de um modelo de governance de risco ativo, com ciclos contínuos de avaliação, testagem e adaptação de medidas de controlo.

O Relatório aplica ainda esta metodologia em três casos práticos, a saber: (i) um chatbot para questões do consumidor; (ii) um sistema de LLM para monitorizar o progresso de alunos; e (iii) um assistente de IA para marcar viagens. Na Secção 10 do Relatório são também compilados vários instrumentos e benchmarks úteis para prestadores e utilizadores de sistemas de LLM. 

V. Conclusões e Recomendações

O Relatório representa um avanço significativo na consolidação de princípios orientadores para o desenvolvimento e utilização de LLM à luz de regras de proteção de dados. Este tema foi também abordado pelo CEDP na Opinião 28/2024, de 18 de dezembro de 2024, ​aqui​ analisada. 

Neste sentido, de forma a assegurar o cumprimento das Recomendações, é essencial proceder a: 

  1. Avaliações de riscos e DPIA específicas para LLM;
  2. Definição de políticas internas e de procedimentos de mitigação de riscos; 
  3. Adoção de programas internos de compliance de IA. 

A equipa de Propriedade Intelectual, Tecnologia e Dados Pessoais continua a acompanhar os desenvolvimentos neste domínio.​

_______________________

1Isabel Barberá | LinkedIn
2Ver descrição completa na página 27 do Relatório.