Одне запитання невпинно супроводжувало ChatGPT на його шляху до статусу суперзірки у сфері штучного інтелекту: чи витримав він тест Тьюринга щодо генерації результату, який неможливо відрізнити від реакції людини?
Двоє дослідників з Каліфорнійського університету в Сан-Дієго кажуть, що це близько, але не зовсім. ChatGPT може бути розумним, швидким і вражаючим. Він добре справляється з демонстрацією очевидного інтелекту. У розмові з людьми він звучить по-людськи й навіть може проявляти гумор, наслідувати фразеологію підлітків і складати іспити на юридичний факультет.
Але інколи виявляється, що він подає абсолютно неправдиву інформацію. Це галюцинації. Це не відображається на власних результатах. Кемерон Джонс, який спеціалізується на мові, семантиці та машинному навчанні, і Бенджамін Берген, професор когнітивної науки, спиралися на роботу Алана Тюрінга, який 70 років тому розробив процес, щоб визначити, чи може машина досягти точки інтелекту та спілкування. майстерність, з якою він міг обдурити когось, щоб подумати, що це людина.
Їхній звіт під назвою «Чи проходить GPT-4 тест Тьюринга?» доступний на сервері препринтів arXiv. Вони зібрали 650 учасників і створили 1400 «ігор», у яких проводилися короткі розмови між учасниками та іншою людиною або моделлю GPT. Учасників попросили визначити, з ким вони розмовляють.
Дослідники виявили, що моделі GPT-4 обманювали учасників у 41% випадків, а GPT-3.5 – лише у 5-14% випадків. Цікаво, що людям вдалося переконати учасників, що вони не машини, лише в 63% випробувань. Дослідники дійшли висновку: «Ми не знаходимо доказів того, що GPT-4 проходить тест Тьюринга». Проте вони відзначили, що тест Тюрінга все ще зберігає значення як міра ефективності машинного діалогу.
«Тест має постійну актуальність як основа для вимірювання вільної соціальної взаємодії та обману, а також для розуміння людських стратегій адаптації до цих пристроїв», — сказали вони.
Вони попередили, що в багатьох випадках чат-боти все ще можуть спілкуватися достатньо переконливо, щоб у багатьох випадках обдурити користувачів.
«Коефіцієнт успіху в 41% говорить про те, що обман за допомогою моделей штучного інтелекту вже ймовірний, особливо в контекстах, де люди-співрозмовники менш уважні до того, що вони не розмовляють з людиною», — сказали вони. «Моделі штучного інтелекту, які можуть надійно імітувати людей, можуть мати широкі соціальні та економічні наслідки».
Дослідники помітили, що учасники, які правильно ідентифікували, зосереджувалися на кількох факторах.
Моделі, які були занадто формальними або занадто неформальними, викликали червоні прапорці для учасників. Якщо вони були надто багатослівними чи надто короткими, якщо їхня граматика чи використання пунктуації були виключно хорошими, чи «непереконливо» поганими, їх використання ставало ключовим фактором у визначенні того, чи мають учасники справу з людьми, чи машинами.
Учасники тестування також були чутливі до загальних відповідей.
«Програми LLM вчаться виробляти високоімовірні завершення та точно налаштовані, щоб уникнути суперечливих думок. Ці процеси можуть заохочувати загальні відповіді, які є типовими в цілому, але їм бракує ідіосинкразії, типової для окремої людини: свого роду екологічна помилка», — сказали дослідники.
Дослідники припустили, що буде важливо відстежувати моделі штучного інтелекту, оскільки вони стають більш плавними та сприймають більше людських примх у розмові.
«Стає все більш важливим виявлення факторів, які призводять до обману, і стратегії його пом’якшення», – сказали вони. Джерело