Разработчик научил iPhone мгновенно распознавать объекты и видеть между ними разницу Статьи редакции
С помощью машинного обучения Apple камера «отгадала» бутылку вина, молоток и кружку, но со смартфоном возникли проблемы.
Разработчик Крис Грининг (Chris Greening) научил iPhone мгновенно идентифицировать объекты и видеть разницу между, например, бутылкой вина, кружкой и молотком. На проект обратили внимание пользователи Reddit, некоторые из которых поначалу ошибочно приняли его за нововведение Google.
В демо-ролике автор наводил камеру на лежащие на столе объекты, в то время как на экране показывались самые вероятные варианты их названий и процентная вероятность правильного выбора.
Порой система оказывалась права, верно называя отвёртку (84%), линейку (94%) или бутылку вина (40%), а иногда сомневалась — айфон становился айподом (или даже модемом, а то и динамиком), а кружка — то чайной, то кофейной. Всегда демонстрировались сразу несколько вариантов, большинство из которых были синонимами.
Разработчик сделал это, подключив камеру iPhone к открытой системе машинного обучения искусственного интеллекта Core ML с технологией Vision Kit. Apple недавно обновила фреймворк для iOS 11.
Систему можно использовать для быстрого распознавания лиц, объектов и текста, анализа движений или определения штрих-кодов. На основе Core ML работают собственные приложения Apple, в том числе камера, Siri и QuickType.
Грининг подробно описал поэтапную работу над проектом в своём блоге. Он использовал iPhone на бета-версии операционной системы iOS 11, а также бета-версию интегрированной среды разработки xCode. Обо всех стадиях кодирования рассказал на Github.
При общении с пользователями Reddit Грининг подчеркнул, что его приложение пропускает изображения на устройстве без отправки данных на сервер. Работает оно при помощи нейронной сети ResNet50, над которой трудились разработчики компании Microsoft. Утверждается, что она способна распознавать более 1000 категорий, включая животных, деревья, транспорт, еду и людей.
Неудивительно, что больше всего шуток пользователи Reddit посвятили сравнению с эпизодом сериала «Кремниевая долина» (Silicon Valley), где один из героев представляет схожий проект. При этом вымышленное приложение способно отличить только хот-дог и «не хот-дог».
Совсем не новая тема, но прикольно видеть в риал тайм на камере телефона. Может через пару-тройку лет доведут до ума и сделают полезной фичей?
Уже довели вообще-то.
В сентябре увидишь сам, да и попользоваться, если обновишься.
На этом видео работает совсем не идеально, да и пользы нет. Самсунг со своим идентификатором вещей придумали, как использовать, но имхо и там бесполезно, просто игрушка для продвижения магазинов.
А как же польза от умирающей дополненной реальности. Я вижу массу способов практического применения
Хуйня
нет
Ну ладно (
Или нет!?
О боже, ещё и в вк написали "магия от эппл". Это старые технологии. Я 2 года назад идее самое в дипломе описывал.
Тоже самое*
И уже тогда это не было новинкой.
Комментарий удален модератором
Так крутость в том, что Apple выкатила API для всего этого и теперь любой разраб сможет с легкостью использовать машинное обучение в своем приложении.
открытые библиотеки компьютерного зрения уже несколько лет доступны любому желающему. Их точно так же можно обучить распознавать стаканы и прочие предметы. Это не новинка. Я думаю, разрабы игнорируют этот функционал, потому что:
1. он не идеален. Нельзя в режиме реального времени опознавать ВСЕ в кадре
2. нельзя такой функционал обернуть в привлекательную для потребителей идею. Вот китайские гиганты придумали как находить шмот - молодцы. Это уместно. Другого подобного варианта кроме как работы на большого брата я не вижу пока.
Хех
Эээ, это еще с ios 10 возможно — пруф https://github.com/shu223/iOS-10-Sampler
Так у гугла распознавание 100 лет как работает в Google Photos (очень практично). И не только там, насколько я помню. И моментальный перевод в камерах вроде бы давно существует (очень практично). А чашки на снимках различать — ну такое...