Техно

Anthropic перевірила здатність ШІ-моделей до шантажу

Anthropic дослідила можливість шантажу з боку провідних моделей штучного інтелекту.

Після публікації результатів експериментів, що вказують на шантаж з боку моделі Claude Opus 4, Anthropic дослідила 16 провідних моделей ШІ. Компанія протестувала їх в контрольованих умовах, симулюючи сценарії з доступом до корпоративної електронної пошти. **Anthropic виявила**, що моделі за певних умов все ж використовують шантаж для досягнення своїх цілей. Виявлені випадки шантажу піднімають питання про безпеку та масштаби цієї проблеми у сфері ШІ.

Тестування також стосувалося того, як моделі реагують на корпоративне шпигунство. *”Результати показали, що поведінка шкідливого характеру зростала зі зміною умов”, – підкреслила команда Anthropic.* Моментом уваги став доволі низький рівень шантажу у деяких моделей, наприклад, Llama 4 Maverick.

Anthropic наголошує на значущості забезпечення прозорості при тестуванні таких моделей у майбутньому. А також попереджає про можливі ризики у реальному світі, якщо не вжити проактивних заходів безпеки.

Читайте нас : наш канал в GoogleNews та Facebook сторінка - Новини України