«Яндекс.Диск» научился распознавать текст на изображениях Статьи редакции
В «Яндекс.Диске» появилась возможность искать изображения, содержащие текст поискового запроса. Об этом TJ сообщили представители компании.
Для того, чтобы найти нужное изображение формата jpeg, gif или png в «Яндекс.Диске», достаточно будет ввести в поисковую строку слово, встречающееся на картинке. Также в результатах поиска будут указаны файлы и папки, в названиях и описаниях которых оно присутствует, и документы, в тексте которых содержится.
Когда на «Диске» тысячи фотографий, разложенных по разным папкам, поиск по текстам позволит быстро найти среди них нужную. Например, скан договора с названием вроде scan723.JPG или фотографию визитки человека, с которым понадобилось связаться.
пресс-служба компании «Яндекс»
В основу поиска текстов на изображениях положена технология оптического распознавания символов. «Яндекс» не стал пользоваться ни одним из уже существующих решений, а разработал собственную систему, которая умеет опознавать текст на разных по содержанию и качеству картинках.
Она состоит из двух частей: классификатора картинок и модуля распознавания. Классификатор отбирает из всех изображений содержащие текст, а специальный модуль разбивает линии текста на отдельные символы, для каждого из которых выбирает несколько наиболее вероятных вариантов. После этого алгоритм языковой модели принимает решение, какой из выбранных символов подходит больше, чем остальные. Например, если из нескольких вероятных символов получается слово, уже известное системе, она может принять решение, что на картинке изображено именно оно.
Специалисты «Яндекса» уточняют, что точность распознавания зависит от таких факторов, как чёткость изображения, его тип и фон, на котором расположены буквы. Поэтому для отсканированных документов она достигает показателя в 80%, для скриншотов приближается к 100%, а для фотографий с надписями составляет более скромные 63,2%. Работа над улучшением качества распознавания на момент публикации этой новости продолжается.
Существует множество систем распознавания текстов на изображении. Некоторые из них предназначены для частных случаев — например, Photoscore Ultimate распознаёт рукописные музыкальные партитуры. Другие универсальны — такие как решения Evernote или ABBYY FineScanner.
Вы вызываетесь на допрос в прокуратуру, т.к. в вашем облаке обнаружелась картинка со словом "хуйло", а мы все знаем кто у нас хуйло.
Майор Пронин
Ага. Теоретически хороший адвокат должен предъявить обратку, что это майор Пронин называет так Путина.
Блин ну этож бородатый анекдот:
-Жуков, выходящий из кабинета Сталина злобно буркнул под нос: Вот сука усатая!
Поскрёбышев услышал и бегом докладывать.
Жукова возвращают в кабинет главнокомандующего...
Сталин, закуривая трубку: Кого это вы имели в виду, товарищ Жуков, когда говорили про "суку усатую"?
Жуков: Конечно, Гитлера!
Сталин: А вы, товарищ Поскрёбышев?
Это да, но если бы это оставалось анекдотом, а не выплыло в реальной ситуации на прошлой неделе, где схватили человека с плакатиком "х*уйло".
К сожалению, да. Новстные сайты должны были пестрить заголовками "Полиция называет президента Путина хуйлом".
Дело в том, что в России заблаговременно убили все таблойды, так что нет :( и я очень удивился этому видео. Интересно, оно было показано на ТВ.
Храните картинки на сберегательной флешке!
блин! Почему-то у меня складывается впечатление, что это сооовсем не хорошая новость :(
это почему же?
например, частично из-за этого
Всем уже 100 раз было сказано что Яндекс к этому дело не имеет.
а осадочек?
Откуда должен быть осадочек на Яндекс? Разве что за незащищенность метрики?
Объясняю своё всё более и более недоверительное отношение к этой компании: все эти терки с гуглом, старание быть везде и всюду, чаще возникающие скандалы в которых фигугрирует Яндекс, а в большей степени наше государство/правительство/МВД с желанием контролировать всё и вся в интернете, и если зарубежные компании могут просто плюнуть на требования следствия, то Яндекс с бизнесом завязаном на России пойдет на поводу. Я не собираюсь наговаривать на Я, их я считаю одним из примеров крутой отечественной компанией, не собираюсь нарушать закон, но если вдруг за листовки Навального будут сажать, то вероятность слить вас Яндексом гораздо выше, чем у того же Гугла.
Но скоро уже будет без разницы, сервера должны стоять в России и к ним доступ уж точно будет.
Но Гугл вам не запилил, действительно, удобную и спасающую в некоторых случаях технологию быстрого поиска среди ваших документов.
нет, но запилил, к примеру, эверноут, который подозрений не вызывает
Evernote тоже прекрасная российская команда. Но по факту, я доверяю Яндекс больше Evernote, потому как он тупо больше. И сил отбиться у него тоже больше.
Мэй би, мэй би
Будем надеятся, что хотя бы сервера Evernote не находятся в России.
Вы же не хотите себя чувствовать жертвой, поведшейся на бездумное мнение серых масс?
я хочу чувствовать защищённость и комфорт. Мяу)
Блин после таких новостей немного параноит, проходит немного времени и ты опять лезешь в вк.
А в ВК переписка прочитана, видео просмотрены, повестка готова.
Комментарий недоступен
63,2 - (малая величина β, которой не хватает до 100%)
Идея логичная, я примерно такой алгоритм любительский и организовывал.
"ФСБ попросило проиндексировать для них Яндекс.Диск. И уж постараться с улучшением алгоритма распознования." - вот что есть сказать у меня.
я про это же вон там... да нее, выше