A ANTRÓPICA DESCUBRE COMO IMUNIZAR A IA CONTRA DECISÕES REALMENTE RUINS
A Anthropic afirma que agora pode vacinar a IA contra o mal.
Usando "vetores de persona" para rastrear características como engano ou bajulação, os investigadores treinaram modelos de linguagem ao injetar deliberadamente comportamentos ruins, então
Ver original