ШІ вже неможливо відрізнити від людини: що показав новий тест Тюрінга

Нейромережі перемагають, бо люди помиляються

Вчені з Каліфорнійського університету у Сан-Дієго отримали перші вагомі докази того, що сучасний ШІ здатний успішно пройти тест Тюрінга. Під час суворих експериментів люди часто не могли відрізнити відповіді передових нейромереж від реплік реальних співрозмовників.

Про це інформує РБК-Україна, посилаючись на наукове дослідження, опубліковане у Proceedings of the National Academy of Sciences.

Більше цікавого: Одна з ключових проблем ШІ може зникнути: що відомо про технологію CHEEM Експеримент "людина проти машини"

Для проведення тестів дослідники створили спеціальний онлайн-сайт, який зовні нагадував звичайний месенджер для смартфонів. Учасник експерименту (екзаменатор) бачив перед собою розділений екран і одночасно листувався з двома прихованими співрозмовниками. Один із них був живою людиною, а інший - ШІ-моделлю

Короткі текстові розмови тривали 5 хвилин (в окремих тестах час збільшували до 15 хвилин). Після завершення діалогу екзаменатор мав чітко відповісти, хто з двох його співрозмовників є справжньою людиною. Усього в експериментах взяли участь майже 500 осіб - студенти університету та незалежні онлайн-користувачі.

Які моделі ШІ впоралися з завданням найкраще?

Вчені протестували декілька різних за віком та потужністю нейромереж.

Результати розподілилися таким чином:

GPT-4.5 (лідер тесту): ШІ назвали людиною у 73% випадків.

"Це феноменальний результат, адже робота плутали з людиною значно частіше, ніж обирали реального живого учасника", - кажуть науковці.

LLaMa-3.1-405B: цю модель визнали людиною у 56% випадків.

"З точки зору статистики, люди взагалі не помітили різниці між цим ШІ та справжнім учасником", - уточнили дослідники.

Базові та старі моделі: класичний бот 1960-х років ELIZA (23%) та популярна модель GPT-4o (21%) повністю провалили іспит - їх "розкусили" майже одразу.

Чому ШІ перемагає?

Професор Бен Берген, один із авторів дослідження, зазначив, що тепер тест Тюрінга змінив свій сенс.

"Раніше він вважався мірилом розуму та знань комп'ютера. Проте сучасний ШІ вже зараз шукає інформацію швидше та точніше за людей", - заявив дослідник.

Виявилося, нові моделі проходять тест не завдяки енциклопедичним знанням, а завдяки копіюванню людських слабкостей: вони роблять друкарські помилки, використовують специфічний гумор та демонструють емоції.

Для цього вчені давали ШІ спеціальні інструкції (команди-характери) перед початком чату. Без таких детальних підказок результати моделей суттєво падали - так, GPT-4.5 одразу "скотилася" до 36% успішних показників.

Науковці попереджають про великі ризики появи "фальшивих людей" в інтернеті. Якщо робота неможливо відрізнити від людини за 15 хвилин глибокої розмови, зловмисники можуть використовувати таких ботів для масового обману: виманювання номерів документів, агітування голосувати за певні політичні сили чи прихованої реклами товарів під виглядом порад від звичайних користувачів.

Ще більше цікавого:

ШІ починає контролювати людські відчуття: футуролог попередив про нову цифрову реальність
ШІ навчили говорити "я не знаю": як це зменшує галюцинації у відповідях

ШІ вже неможливо відрізнити від людини: що показав новий тест Тюрінга

Читайте також