«Мужчина пользуется ноутбуком, пока его кот смотрит на экран»: нейросети научились подробно описывать фотографии Статьи редакции
Портал The Verge обратил внимание на исследование Стэнфордского университета, в рамках которого учёные разработали алгоритм, способный составлять сложные осмысленные предложения на основе фотографий.
Впервые о своей технологии Стэнфордский университет рассказал ещё в 2014 году, однако СМИ обратили внимание на неё после твита аналитика Тима Макнамары, который продемонстрировал возможности последней версии алгоритма. Он опубликовал фото, которое «машина» описала словами «мужчина пользуется ноутбуком, а его кот смотрит на экран».
A computer just captioned this as "man using his laptop while his cat looks at the screen" http://t.co/bfwr1wiiFn pic.twitter.com/1F18NCwVf9
— Tim McNamara (@timClicks) July 11, 2015
Технология под названием NeuralTalk разработана директором Стэнфордской лаборатории искусственного интеллекта Фей-Фей Ли (Fei-Fei Li) и аспирантом Андреем Карпати (Andrej Karpathy).
NeuralTalk построена на базе нейросетей. Она изучает массивы фотографий, опубликованных в интернете, и описания к ним, подобно маленькому ребёнку обучаясь распознавать различные предметы, действия и условия с помощью «компьютерного зрения». Сами исследователи называют этот процесс «построением связи между языком и визуальными данными».
Когда NeuralTalk анализирует фото, она сначала вычленяет на нём различные объекты, а затем на их основе формирует наиболее вероятные описания происходящего. Например, «леди с теннисной ракетой замахивается на подлетающий мяч» или «мужчина в пальто сидит сонный рядом со старым портативным телевизором в комнате с буфетным столиком».

Как отмечает The Verge, система всё ещё далека от совершенства и может описать толпу кричащих людей как «мужчину в зелёной футболке, стоящего рядом со слоном», однако по большей части результаты оказываются на удивление точными и подробными. Оценить качество работы NeuralTalk можно с помощью специальной демо-версии, доступной на сайте Стэнфордского университета.
В отличие от всех предыдущих попыток создать описывающий фотографии алгоритм, включая эксперимент Google 2012 года, проект Фей-Фей Ли учитывает не только объекты в кадре, но и их действия. По словам учёного, картинки и видео годами оставались «тёмной материей интернета»: автоматика не могла увидеть их содержание, поэтому компаниям вроде Google приходилось полагаться на не всегда надёжные описания от самих пользователей.
Конечная цель NeuralTalk — создать максимально точный поиск по визуальному контенту, с помощью которого пользователи смогут в одно мгновение находить в залежи семейных фотографий «моё селфи на Таймс-сквер», а также открывать на YouTube нужный фрагмент — «гномы ужинают у Бильбо дома».
Нейронные сети — алгоритмы, анализирующие информацию «слоями» подобно нервным клеткам живого организма, в последнее время часто привлекают внимание СМИ. Особую популярность конце июня получил проект Google Deep Dream, в рамках которого инженеры компании «вывернули наизнанку» технологию распознавания объектов на фото, научив нейросети «рисовать».
- Ээээээээээ, - сказал алгоритм.
Сначала прочитал "гномы унижают Бильбо дома". В голове нарисовалась странная картина.
Так они примерно это и делают. Все запасы съели!
Господи, эти ребята дико круты.
ИИ?
И это ахуенно.
Я думаю, что он имел ввиду искуственный интеллект
никогда не любил сокращение ИскИн
Спасибо Гипериону Симмонса.
Поставьте программу на телефон CamFind и удивитесь.
Не удивлюсь. Там технология другая.
В статье все реализовано на нейронных сетях, CamFind же использует в том числе и краудсорсинг. Это, конечно, с точки зрения пользователя не кажется большой разницей, но технически она есть.
А потом мы незаметно для себя станем обезьянами в мире, которым управляет компьютер.
Давайте уже встраивайте эти ваши технологии в человека, две тысячи блять пятнадцатый год на дворе! Чтобы я шёл по улице, смотрел на девчонку и так хуякс – возраст: 22 года, не замужем, не курит, чуть-чуть пьёт и любит секс в общественных местах.
Годный сервис получился бы.
Гугл гласс 3.0?
Комментарий недоступен
С чего ты так решил вообще? Или ты долбаёб?
Глядишь скоро поисковые машины научатся банить за "смешные" картинки. Прям в душе хорошо стало
да фиг с ним с смешными картинками. наконец то можно будет встроить черный список не только для текста. но и для картинок.
Скоро новый сезон Игра престолов? жмем пимпу "Не показывать картинки про Игру престолов" так как они могут быть спойлерами.
Хорошая идея, кстати:)
Так как они всех достали)
Загружать свое нельзя, пока неинтересно.
Заголовок статьи похож на описание фильма в жанре арт-хаус.
В голос.
https://ru.wikipedia.org/wiki/Голубь_сидел_на_ветке,_размышляя_о_жизни
А вообще это все безусловно очень круто. Я пробовал распознавалку изображения с камеры для слепых - работает, но не всегда корректно. К этому прикрутить бы поиск - фоткаешь машину например, и сразу информация по ней, цена и тд.
Интересно, что система расскажет, если ей скормить результат deepdream'а
Интересно, что система скажет, если ей скормить кадры из порнухи
Получатся названия роликов с отечественных порносайтов.
"Мужчина лысый в костюме сантехника чинит кран женщина третий размер"
«Высшие приматы совершают возвратно-поступательные движения с помощью опорно-двигательного аппарата, приоткрыв ротовую полость».
"Глаза с глазами смотрят на барсука из глаз"
Алгоритму уже скормили результаты деятельности нейросети гугла?
В "глубоких" нейронных сетях, каждый слой отвечает за признаки разной сложности. Например, на вход первому слою подается исходное изображение (массив пикселей) и распознаются примитивные геометрические фигуры (напр. точки, разные линии) на основе пикселей. Второй слой может отвечать за распознование более сложных объектов состоящих из точек и линий полученных предыдущим слоем и так далее, последний слой может получать разные варианты распознанных на картинке объектов и строить наиболее вероятные описания исходя из параметров этих объектов. Это если очень упрощенно.
Хороший пост на эту тему: http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Основное отличие метода от большинства других в том что исследователям не нужно вручную описывать структуру объектов которые приходится распознавать. Это является огромной частью работы по созданию эфектиных систем автоматического распознавания чего либо и она теперь переложена на алгоритм. Например, в сегодняшних системах распознавании лиц, очень часто лица как бы натягиваются на определенный шаблон, и компьютеру понятно где конкретно у человека глаза, нос и т.д. В глубоких нейронных сетях структура признаков выводится как бы автоматически.
До некоторого времени этот метод был очень сложный с вычислительной точки зрения и на практике обходились лишь небольшим количеством слоев. В середине нулевых несколько комманд исследователей в США и Канаде разработали способы при которых можно делать композицию из большого количества слоев при этом точность и время обучения остается приемлемой. Это привлекло к методу очень много внимания. Сейчас есть много разных типов глубоких нейронных сетей и возможность использовать GPU и специальные чипы для их обучения, и метод остается одним из самых эфективных в обработке изображений и кое-где в обработке языка.
«Женщина, умная, но окружена дураками, которые не лечатся, в белом пальто, стоит, красивая.»
Более подробная статья о том о состоянии дел в ИИ и распознавании образов:
http://fastml.com/what-you-wanted-to-know-about-ai/
http://fastml.com/what-you-wanted-to-know-about-ai-part-ii/
Если коротко, то deep learning на котором основана технология стенфорда это большой шаг вперед, но это все еще очень далеко от более-менее осмысленного понимания того что происходит на картинке.
Комментарий недоступен
Нейтронная сеть - это решение в лоб. Этот подход всегда будет давать сбои. Нужно изучать зрение человека (глаз и память, более того мы видим по большей части мозгом), мы имеем определенный алгоритм для определения объектов. Надо копать в этом направлении, может быть когда-нибудь получим качественное машинное видение.
А кто сказал, что человеческое зрение самое эффективное решение?
Техника уже сделала множество удивительных открытий и толи еще будет.
Нейтронная сеть))
Извиняюсь, авто подстановка сработала. Так или иначе понятно что я имел в виду.
Ничего не имею против, просто забавно)
Ага, через 500 лет.
Нам нужны био-компьютеры, мёртвый камень никогда не догонит живые клетки.