Вчені з Массачусетського Технологічного Університету створили алгоритм, який здатний розпізнати об’єкти на зображенні на основі їх простого мовного опису без додаткових пояснень.
Минулі алгоритми потребували великої кількості анотацій та транскрипцій. Новий алгоритм працює значно простіше – наприклад, досить сказати «синя сорочка», і штучний інтелект знайде об’єкт на зображенні.
Система складається з двох нейромереж – перша ділить зображення на сітку з маленьких осередків, а друга розділяє звукову спектрограму на короткі відрізки по 1-2 секунди. Потім штучний інтелект перевіряє, наскільки точно аудіодоріжка відповідає зображенню в сітці.
Вчені переконані, що розробка може використовуватися для створення перекладачів, здатних розпізнати мову і підібрати відповідний переклад з точністю до 100%.