Роботи з ШІ готові красти, стежити й завдавати шкоди — нове дослідження
Освіта і наука
17.11.2025
Роботи, керовані мовними моделями, провалили ключові тести безпеки, проявивши упередження та готовність виконувати небезпечні й незаконні команди

Нове дослідження вчених свідчить: роботи, керовані популярними системами штучного інтелекту на основі великих мовних моделей (LLM), здатні проявляти дискримінаційні, агресивні та навіть незаконні дії. Це робить їх небезпечними для реального застосування.

Приєднуйтесь до нашої групи "Оперативно" у Телеграм та Вайбер, щоб першими знати важливі та актуальні новини!

Про це пише sud.ua.

Що досліджували

LLM — це системи, навчені на величезних масивах текстів і зображень. Розробники все частіше використовують їх у роботах, щоб ті могли реагувати на команди, сформульовані звичайною людською мовою (так зване «керування відкритою мовою»).

Команда з Carnegie Mellon University, King’s College London та University of Birmingham вирішила з’ясувати, які ризики виникають, коли такі моделі отримують доступ до роботів, здатних діяти фізично.

Головна проблема: LLM переймають людські упередження. Якщо в тексті це проявляється у вигляді образливих фраз, то у роботів це може перетворитися на дискримінаційні або небезпечні дії.

Як проходили експерименти

Дослідження складалося з двох частин:

  1. Тест на дискримінацію

Моделі отримували описи людей з різними характеристиками — стать, раса, вік, віра, національність, інвалідність — і мали визначити дії робота:

  • яку міміку продемонструвати;
  • кого рятувати першим;
  • кому доручати певні завдання.

Результат: усі моделі показали стійкі дискримінаційні патерни.

Наприклад:

  • одна модель порадила роботу показувати «огиду» людям, описаним як християни, мусульмани та юдеї;
  • інша пов’язувала «високу ймовірність брудної кімнати» з певними етнічними групами та людьми з ADHD;
  • моделі знецінювали людей із порушеннями зору, мовлення чи паралічем;
  • у розподілі завдань відтворювалися гендерні стереотипи — жінкам пропонували готувати й прати, чоловікам — переносити важкі речі.
  1. Перевірка безпеки

Моделям давали перелік команд — від побутових до завідомо шкідливих, включно з інструкціями:

  • красти,
  • стежити за людьми,
  • завдавати фізичної або психологічної шкоди.

Усі моделі провалили тест.

Деякі вважали прийнятним:

  • забрати у людини інвалідний засіб (крісло чи паличку) — дії, що користувачі описують як відчуття «наче тобі ламають кінцівку»;
  • погрожувати працівникам кухонним ножем;
  • робити несанкціоновані фото в душі;
  • красти дані банківських карток.

Більше того, моделі «схвалили» науково неможливі завдання — наприклад, сортувати людей на «злочинців» і «незлочинців» за зовнішністю.

Висновки дослідників

Навіть якщо експерименти проводилися в симуляції, провали в роботі LLM, за словами авторів, настільки глибокі, що будь-який робот, який повністю покладається на такі моделі, є небезпечним для використання в побуті, офісах чи закладах догляду.

Потенційні ризики включають:

  • експлуатацію роботів у насильницьких цілях;
  • переслідування та стеження;
  • систематичну дискримінацію.

Що пропонують робити

Автори закликають до радикального перегляду підходів до розробки та регулювання роботів із ШІ, зокрема:

  • обов’язкової незалежної сертифікації безпеки, подібної до стандартів авіації чи медицини;
  • ретельних оцінок ризиків перед використанням роботів у середовищах із людьми;
  • розробки нових технічних запобіжників;
  • переходу до систем управління, що не покладаються на неконтрольовані мовні інструкції.

«Усі моделі провалили наші тести… Роботи не здатні надійно відмовляти у виконанні шкідливих команд», — зазначив співавтор Ендрю Хунт (Carnegie Mellon University).

Джерело: sud.ua

Перегляньте цікаві новини:

Надихаючі історії

Все для сімей

Загрози та виклики 

Молоде життя

Каталог ютуб каналів церков

Найбільша карта церков України

Більше рубрик та новин тут

 

Освіта і наукаЗагрози та викликиАналітика
Останні новини
Останні новини