«Мужчина пользуется ноутбуком, пока его кот смотрит на экран»: нейросети научились подробно описывать фотографии Статьи редакции

Портал The Verge обратил внимание на исследование Стэнфордского университета, в рамках которого учёные разработали алгоритм, способный составлять сложные осмысленные предложения на основе фотографий.

Впервые о своей технологии Стэнфордский университет рассказал ещё в 2014 году, однако СМИ обратили внимание на неё после твита аналитика Тима Макнамары, который продемонстрировал возможности последней версии алгоритма. Он опубликовал фото, которое «машина» описала словами «мужчина пользуется ноутбуком, а его кот смотрит на экран».

Технология под названием NeuralTalk разработана директором Стэнфордской лаборатории искусственного интеллекта Фей-Фей Ли (Fei-Fei Li) и аспирантом Андреем Карпати (Andrej Karpathy).

NeuralTalk построена на базе нейросетей. Она изучает массивы фотографий, опубликованных в интернете, и описания к ним, подобно маленькому ребёнку обучаясь распознавать различные предметы, действия и условия с помощью «компьютерного зрения». Сами исследователи называют этот процесс «построением связи между языком и визуальными данными».

Когда NeuralTalk анализирует фото, она сначала вычленяет на нём различные объекты, а затем на их основе формирует наиболее вероятные описания происходящего. Например, «леди с теннисной ракетой замахивается на подлетающий мяч» или «мужчина в пальто сидит сонный рядом со старым портативным телевизором в комнате с буфетным столиком».

Как отмечает The Verge, система всё ещё далека от совершенства и может описать толпу кричащих людей как «мужчину в зелёной футболке, стоящего рядом со слоном», однако по большей части результаты оказываются на удивление точными и подробными. Оценить качество работы NeuralTalk можно с помощью специальной демо-версии, доступной на сайте Стэнфордского университета.

В отличие от всех предыдущих попыток создать описывающий фотографии алгоритм, включая эксперимент Google 2012 года, проект Фей-Фей Ли учитывает не только объекты в кадре, но и их действия. По словам учёного, картинки и видео годами оставались «тёмной материей интернета»: автоматика не могла увидеть их содержание, поэтому компаниям вроде Google приходилось полагаться на не всегда надёжные описания от самих пользователей.

Конечная цель NeuralTalk — создать максимально точный поиск по визуальному контенту, с помощью которого пользователи смогут в одно мгновение находить в залежи семейных фотографий «моё селфи на Таймс-сквер», а также открывать на YouTube нужный фрагмент — «гномы ужинают у Бильбо дома».

Нейронные сети — алгоритмы, анализирующие информацию «слоями» подобно нервным клеткам живого организма, в последнее время часто привлекают внимание СМИ. Особую популярность конце июня получил проект Google Deep Dream, в рамках которого инженеры компании «вывернули наизнанку» технологию распознавания объектов на фото, научив нейросети «рисовать».

0
43 комментария
Написать комментарий...
Начальный франт

- Ээээээээээ, - сказал алгоритм.

Ответить
Развернуть ветку
Значимый крюк

Сначала прочитал "гномы унижают Бильбо дома". В голове нарисовалась странная картина.

Ответить
Развернуть ветку
Разнообразный утюг

Так они примерно это и делают. Все запасы съели!

Ответить
Развернуть ветку
Долгий кран

Господи, эти ребята дико круты.

Ответить
Развернуть ветку
Дополнительный инструмент

ИИ?

Ответить
Развернуть ветку
Ценный хичхакер

И это ахуенно.

Ответить
Развернуть ветку
Музыкальный блик

Я думаю, что он имел ввиду искуственный интеллект

Ответить
Развернуть ветку
Дополнительный инструмент

никогда не любил сокращение ИскИн

Ответить
Развернуть ветку
Армейский самолет

Спасибо Гипериону Симмонса.

Ответить
Развернуть ветку
Женский томагавк_два

Поставьте программу на телефон CamFind и удивитесь.

Ответить
Развернуть ветку
Долгий кран

Не удивлюсь. Там технология другая.

В статье все реализовано на нейронных сетях, CamFind же использует в том числе и краудсорсинг. Это, конечно, с точки зрения пользователя не кажется большой разницей, но технически она есть.

Ответить
Развернуть ветку
Армейский самолет

А потом мы незаметно для себя станем обезьянами в мире, которым управляет компьютер.

Ответить
Развернуть ветку
Уютный Илья

Давайте уже встраивайте эти ваши технологии в человека, две тысячи блять пятнадцатый год на дворе! Чтобы я шёл по улице, смотрел на девчонку и так хуякс – возраст: 22 года, не замужем, не курит, чуть-чуть пьёт и любит секс в общественных местах.

Ответить
Развернуть ветку
Городской микрофон

Годный сервис получился бы.

Ответить
Развернуть ветку
Всероссийский чайник

Гугл гласс 3.0?

Ответить
Развернуть ветку
Подходящий хичхакер

Комментарий недоступен

Ответить
Развернуть ветку
Уютный Илья

С чего ты так решил вообще? Или ты долбаёб?

Ответить
Развернуть ветку
Районный бас

Глядишь скоро поисковые машины научатся банить за "смешные" картинки. Прям в душе хорошо стало

Ответить
Развернуть ветку
Слышный браслет

да фиг с ним с смешными картинками. наконец то можно будет встроить черный список не только для текста. но и для картинок.
Скоро новый сезон Игра престолов? жмем пимпу "Не показывать картинки про Игру престолов" так как они могут быть спойлерами.

Ответить
Развернуть ветку
Районный бас

Хорошая идея, кстати:)

Ответить
Развернуть ветку
Армейский самолет

Так как они всех достали)

Ответить
Развернуть ветку
Иркутский микрофон

Загружать свое нельзя, пока неинтересно.

Ответить
Развернуть ветку
Северный динозавр

Заголовок статьи похож на описание фильма в жанре арт-хаус.

Ответить
Развернуть ветку
Положительный Влад
Ответить
Развернуть ветку
Значимый крюк

А вообще это все безусловно очень круто. Я пробовал распознавалку изображения с камеры для слепых - работает, но не всегда корректно. К этому прикрутить бы поиск - фоткаешь машину например, и сразу информация по ней, цена и тд.

Ответить
Развернуть ветку
Озабоченный историк

Интересно, что система расскажет, если ей скормить результат deepdream'а

Ответить
Развернуть ветку
Значимый крюк

Интересно, что система скажет, если ей скормить кадры из порнухи

Ответить
Развернуть ветку
Самостоятельный супер_стар

Получатся названия роликов с отечественных порносайтов.

Ответить
Развернуть ветку
Уникальный теркин30см

"Мужчина лысый в костюме сантехника чинит кран женщина третий размер"

Ответить
Развернуть ветку
Белорусский якорь

«Высшие приматы совершают возвратно-поступательные движения с помощью опорно-двигательного аппарата, приоткрыв ротовую полость».

Ответить
Развернуть ветку
Электрический фонарь

"Глаза с глазами смотрят на барсука из глаз"

Ответить
Развернуть ветку
Бытовой танк88

Алгоритму уже скормили результаты деятельности нейросети гугла?

Ответить
Развернуть ветку
Судебный лолипоп

В "глубоких" нейронных сетях, каждый слой отвечает за признаки разной сложности. Например, на вход первому слою подается исходное изображение (массив пикселей) и распознаются примитивные геометрические фигуры (напр. точки, разные линии) на основе пикселей. Второй слой может отвечать за распознование более сложных объектов состоящих из точек и линий полученных предыдущим слоем и так далее, последний слой может получать разные варианты распознанных на картинке объектов и строить наиболее вероятные описания исходя из параметров этих объектов. Это если очень упрощенно.

Хороший пост на эту тему: http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Основное отличие метода от большинства других в том что исследователям не нужно вручную описывать структуру объектов которые приходится распознавать. Это является огромной частью работы по созданию эфектиных систем автоматического распознавания чего либо и она теперь переложена на алгоритм. Например, в сегодняшних системах распознавании лиц, очень часто лица как бы натягиваются на определенный шаблон, и компьютеру понятно где конкретно у человека глаза, нос и т.д. В глубоких нейронных сетях структура признаков выводится как бы автоматически.

До некоторого времени этот метод был очень сложный с вычислительной точки зрения и на практике обходились лишь небольшим количеством слоев. В середине нулевых несколько комманд исследователей в США и Канаде разработали способы при которых можно делать композицию из большого количества слоев при этом точность и время обучения остается приемлемой. Это привлекло к методу очень много внимания. Сейчас есть много разных типов глубоких нейронных сетей и возможность использовать GPU и специальные чипы для их обучения, и метод остается одним из самых эфективных в обработке изображений и кое-где в обработке языка.

Ответить
Развернуть ветку
Грустный колос

«Женщина, умная, но окружена дураками, которые не лечатся, в белом пальто, стоит, красивая.»

Ответить
Развернуть ветку
Судебный лолипоп

Более подробная статья о том о состоянии дел в ИИ и распознавании образов:

http://fastml.com/what-you-wanted-to-know-about-ai/
http://fastml.com/what-you-wanted-to-know-about-ai-part-ii/

Если коротко, то deep learning на котором основана технология стенфорда это большой шаг вперед, но это все еще очень далеко от более-менее осмысленного понимания того что происходит на картинке.

Ответить
Развернуть ветку
Валютный шар

Комментарий недоступен

Ответить
Развернуть ветку
Вчерашний Валера

Нейтронная сеть - это решение в лоб. Этот подход всегда будет давать сбои. Нужно изучать зрение человека (глаз и память, более того мы видим по большей части мозгом), мы имеем определенный алгоритм для определения объектов. Надо копать в этом направлении, может быть когда-нибудь получим качественное машинное видение.

Ответить
Развернуть ветку
Поперечный теркин30см

А кто сказал, что человеческое зрение самое эффективное решение?
Техника уже сделала множество удивительных открытий и толи еще будет.

Ответить
Развернуть ветку
Значимый крюк

Нейтронная сеть))

Ответить
Развернуть ветку
Вчерашний Валера

Извиняюсь, авто подстановка сработала. Так или иначе понятно что я имел в виду.

Ответить
Развернуть ветку
Значимый крюк

Ничего не имею против, просто забавно)

Ответить
Развернуть ветку
Конечный историк

Ага, через 500 лет.

Ответить
Развернуть ветку
Подобный пистолет

Нам нужны био-компьютеры, мёртвый камень никогда не догонит живые клетки.

Ответить
Развернуть ветку
Читать все 43 комментария
null