Como transformar regras de IA em testes práticos: a ponte Policy→Tests (P2T)

Ei, já tentou colocar um regulamento da UE em código? É mais complicado do que parece. A maioria das diretrizes de governança de IA, como o AI Act europeu ou o NIST AI RMF, vem em linguagem natural – frases que fazem sentido para humanos, mas não para máquinas. Quando você precisa de um mecanismo de avaliação ou de uma guardrails de execução, a ponte entre a linguagem e regras explícitas se torna um gargalo.

A solução que eu e minha equipe acabamos de publicar em um workshop da AAAI é justamente isso: um pipeline extensível chamado Policy→Tests (P2T) que converte documentos de política em um conjunto de regras normalizadas. O resultado é um JSON compacto que descreve cada regra de forma atômica: escopo, condições, exceções, sinais de evidência e origem.

O que isso significa na prática? Imagine que você tem uma norma HIPAA. Em vez de escrever manualmente cada teste, o P2T gera automaticamente guardrails que reduzem violações em prompts limpos, obfuscados ou compostos. Isso economiza tempo e elimina erros humanos.

O framework já conta com ferramentas de extração e validação, e avaliamos a qualidade contra bases humanas em vários tipos de políticas. Mas a pergunta que fica é: será que funciona em seu fluxo de trabalho? Você já tem um motor de regras, como OPA/Rego, ou um harness de avaliação? Como lidam com exceções e ambiguidades?

Se quiser experimentar, o código está no repositório anônimo e o paper está no arXiv. Deixe seu feedback – especialmente sobre pontos fracos como referências cruzadas e casos de exceção.

Em resumo, o P2T é a ponte que falta entre o discurso regulatório e a execução prática. Se você quer deixar a governança de IA mais automatizada e menos manual, vale a pena dar uma olhada.