Навчена на даних багаторічних спостережень за 6 млн датчан модель штучного інтелекту змогла з високою точністю прогнозувати важливі події в житті людей аж до вказівки дати їхньої смерті. Точність передбачень можна підвищити ще сильніше, якщо додати до даних спостережень відео, листування та інформацію про соціальні зв’язки, що супроводжують життя людей. Але спочатку належить вирішити етичний бік питання.
Спільний проєкт дослідників з Університету Копенгагена (Данія) та Північно-Східного університету в Бостоні (США) показав, що модель машинного навчання типу трансформер (transformer) може бути використана для прогнозування подій у житті людей.
Модель трансформер створювалася для обробки послідовностей, таких як текст природною мовою. Від інших моделей вона відрізняється більш масштабним розпаралелювання задач і не вимагає дотримання послідовності в аналізі даних. Виявилося, що модель вдало підійшла для упорядкування даних та прогнозування того, що станеться в житті людини і навіть змогла вказати приблизний час смерті. Щобільше, за точністю передбачення поведінки особистості та часу її смерті нова модель перевершила раніше створені аналогічні моделі.
Стаття «Використання послідовності життєвих подій для прогнозування людських життів» з описом створеної в експерименті моделі life2vec на основі даних про 6 млн датчан опублікована в журналі Nature Computational Science. Також вона вільно доступна на сайті arХiv.org.
«Ми використовували модель для вирішення фундаментального питання: якою мірою ми можемо передбачити події у вашому майбутньому, ґрунтуючись на умовах та подіях у вашому минулому? З наукового погляду нас цікавить не стільки саме пророцтво, скільки ті нюанси в інформації, які дозволяють моделі давати такі точні відповіді», — розповів Сун Леманн (Sune Lehmann), професор DTU та перший автор статті.
Автори роботи використовували послідовність подій у житті людей подібно до того, як будується зі слів пропозиція. Власне з цієї причини для роботи було взято модель трансформера, яка створювалася для аналізу текстів. Одночасно модель працює з урахуванням відомих соціальних закономірностей та спостережень, на підставі яких не тільки ШІ, а й звичайні фахівці також можуть зробити висновки про подальший життєвий шлях людини за місцем її проживання, професії, соціальним статусом, статтю, звичками та за медичною карткою (відвідуванням лікарів).
Дані для навчання моделі life2vec взяті з інформації про ринок праці та даних Національного регістру пацієнтів (LPR) та Статистичного управління Данії. Набір даних включає інформацію про всіх 6 млн датчан і містить відомості про доходи, заробітну плату, стипендії, тип роботи, галузі, соціальну допомогу тощо. Набір медичних даних включає записи про відвідування медичних працівників або лікарень, діагноз, тип пацієнта і наскільки раптовим чи терміновим було звернення за медичною допомогою. Дані для моделі представлені за період з 2008 по 2020 роки, хоча щодо обмеженої вікової групи дані бралися за період з 2008 по 2016 роки.
Автори дослідження зазначають, що для повномасштабного використання подібної моделі в соціальній цілі необхідно відповісти на безліч етичних питань. Одночасно вони підкреслюють, що широко поширені механізми оцінки цільової аудиторії для реклами дозволяють дізнаватися про людей не набагато менше і це вже використовується. Так що не буде нічого поганого, якщо модель зможе передбачити якусь негативну подію в житті конкретної людини, яку можна буде уникнути тим чи іншим чином. Дату смерті, до речі, модель передбачає з точністю в межах чотирьох років.
За словами дослідників, наступним кроком стало б включення до моделі інших типів інформації, таких як текст та зображення чи інформація про наші соціальні зв’язки. Таке використання даних відкриває зовсім нову взаємодію між соціальними науками та наукою про здоров’я.