ANTHROPIC УЗНАЕТ, КАК ИММУНИЗИРОВАТЬ ИИ ПРОТИВ ДЕЙСТВИТЕЛЬНО ПЛОХИХ РЕШЕНИЙ
Anthropic утверждает, что теперь может вакцинировать ИИ против зла.
Используя "персональные векторы" для отслеживания таких черт, как обман или подхалимство, исследователи обучали языковые модели, намеренно вводя плохое поведение, затем
Посмотреть Оригинал