0
Дослідники Apple випустили нову модель штучного інтелекту з відкритим кодом, яка здатна редагувати зображення на основі інструкцій користувача природною мовою. Він називається «MGIE», що означає редагування зображень, кероване MLLM, і використовує мультимодальні великі мовні моделі (MLLM) для інтерпретації запитів користувачів і виконання маніпуляцій на рівні пікселів.
Модель здатна редагувати різні аспекти зображень. Загальні покращення фотографій можуть включати яскравість, контрастність або різкість або застосування художніх ефектів, як-от ескізів. Локальне редагування може змінювати форму, розмір, колір або текстуру певних областей або об’єктів на зображенні, а модифікації у стилі Photoshop можуть включати обрізання, зміну розміру, обертання та додавання фільтрів або навіть зміну фону та змішування зображень.
Користувач може вказати фотографію піци, щоб «зробити її здоровішою». Використовуючи здоровий глузд, модель може додавати овочеві начинки, наприклад помідори та зелень. Запит на введення глобальної оптимізації може мати форму «додати контраст, щоб імітувати більше світла», тоді як модифікацію у стилі Photoshop можна внести, попросивши модель видалити людей із фону фотографії, перемістивши фокус зображення на вираз обличчя суб’єкта.
Apple співпрацювала з дослідниками Каліфорнійського університету для створення MGIE, який був представлений у статті на Міжнародній конференції з навчальних представлень (ICLR) 2024. Модель доступна на GitHub і включає код, дані та попередньо навчені моделі.
Це другий прорив Apple у дослідженнях ШІ за стільки місяців. Наприкінці грудня Apple оголосила, що досягла успіху в розгортанні великих мовних моделей (LLM) на iPhone та інших пристроях Apple з обмеженою пам’яттю, винайшовши інноваційну техніку використання флешпам’ять.
Протягом останніх кількох місяців Apple тестувала конкурента «Apple GPT», який міг би конкурувати з ChatGPT. За словами Марка Гурмана з Bloomberg, робота над штучним інтелектом є пріоритетом для Apple, оскільки компанія розробляє фреймворк «Ajax» для великих мовних моделей.
І The Information, і аналітик Джефф Пу стверджують, що Apple матиме якусь генеративну функцію ШІ, доступну на iPhone та iPad приблизно в кінці 2024 року, коли вийде iOS 18. Кажуть, що iOS 18 включатиме вдосконалену версію Siri з функцією генеративного штучного інтелекту, схожою на ChatGPT, і, за словами Гурмана, може стати «найбільшим» оновленням програмного забезпечення в історії iPhone.