Разработчик создал бота для «ВКонтакте», распознающего голосовую речь Статьи редакции
Разработчик Максим Лепеха запустил бота, который распознаёт голосовую речь в личных сообщениях во «ВКонтакте». По словам автора, программа может без проблем различать короткие фразы из нескольких слов.
В основе программы стоит алгоритм SpeechKit Cloud от компании «Яндекс», который позволяет распознавать речь и используется в «Яндекс.Навигаторе». Бот трансформирует слова, сказанные в микрофон, в текстовое сообщение и отправляет автору.
В разговоре с TJ Максим рассказал, что запустил бота утром 15 декабря, и за сутки он обработал около 400 сообщений от 200 человек.
Идея создания бота возникла с популяризацией голосовых сообщений «ВКонтакте». Не знаю почему, но мне они не понравились изначально — не всегда бывает подходящая ситуация, чтобы было возможно послушать аудио: то ты едешь в метро, то стоишь с друзьями.
А потом прочитал об аналогичном боте в Telegram. Поискал — ничего похожего не нашел. Ну и за пару часов написал первую версию. Тестировали в час ночи с друзьями, к утру было готово минимальное оформление группы и анонс.
Пока программа с трудом справляется с длинными предложениями, но правильно распознаёт короткие фразы длиной до шести слов. Например, предложения «А с мобильного устройства можешь распознать?» и «Попробуй ещё раз, я говорю прямо в микрофон» бот распознаёт неполностью.
По словам создателя, проблема заключается в алгоритме «Яндекса», на сервера которого отправляются сообщения для распознавания. Компания также устанавливает ограничение на количество запросов — не более тысячи штук в сутки.
В ближайших планах — договориться с «Яндексом» о том, чтобы мне увеличили лимит распознаваний голосовых сообщений в сутки и поработать над точностью. Потому что она сейчас оставляет желать лучшего — как полностью рабочий инструмент данного бота сложно использовать.
30 ноября разработчики «ВКонтакте» запустили бота, который отвечает на сообщения пользователей видеороликами с фразами ведущего Сергея Дружко. Алгоритм работает на основе векторов — массивных чисел, передающих семантический смысл слов.
Вы только вдумайтесь! Добавили функцию "голосовых сообщений", а теперь общество ищет пути переводить их обратно в текст. Это и есть безумие! Автору + за идею, но:
В ближайших планах — договориться с «Яндексом» о том, чтобы мне увеличили лимит распознаваний голосовых сообщений в сутки и поработать над точностью. Потому что она сейчас оставляет желать лучшего — как полностью рабочий инструмент данного бота сложно использовать.Скорее всего ответ будет "нет", иначе было бы глупо. Если скажут да, каждый школьник будет просить.
и поработать над точностьюАвтор считает, что это от него зависит точность распознавания? Алгоритм же "Яндекса". Или он решил просить "Яндекс" увеличить точность?
Ответ может быть и положительный за определенное вознаграждение, как премиум.
Вполне могут согласиться если он наберет популярность, Я так понимаю он присылает распознанный текст в виде сообщения. А в добавок будет присылать рекламу Яндекса или его софта. Вот и будет договор у них. Ему бесплатно сервис, который Яндекс вообще не нагрузит никак, а Яндексу реклама повсюду куда доабвят этого бота.
Есть ещё один минус.
потестируй аську
Лепёха 😏
инфоповод огонь :|
Это же пипец. Новизны на самом деле ноль: прикрутить яндекс speech kit к боту. Мы в своих ботах telegram уже пол года назад такое делали, правда постеснялись где-то релизить - осталось как пасхалка.
А тут целая статья на tj.
Комментарий удален модератором
Отправить текст-то не проблема, он пишет, что нет возможности прослушать входящее аудиосообщение в перечисленных ситуациях
Комментарий удален модератором
Эта фича уже штатно есть в ICQ, любое входящее или исходящее сообщение можно перевести в текст. Запустили в начале года. И технология вполне доступная, работает на большом количестве языков и распознает длинные фразы.
кстати реализована фича на базе распознавания фирмы Nuance (те ребята, которые поучаствовали в создании Siri)
Эм, как бы так намекнуть, тут уже 2017 скоро.
да да да, шутки про возраст. ОК. Только там сейчас технический уровень и фичи именно 2017 год.
Осталось пользователей добавить, и будет норм.
А не проще просто на клаве юзать ввод текста голосом. Зачем именно аудиофайл отсылать то.
так это другая функция же. Кто-то отправил аудиофайл, а тебе не вариант его послушать, и тут можно перевести его в текст.
Так в том то и дело зачем сразу отправлять аудиофайл если его неудобно слушать когда можно надиктовать текст.
Комментарий удален модератором
Ну на айфоне иногда голосовой ввод использую, когда аудио не хочу писать) Вполне себе
Комментарий удален модератором
Наверное сложно жить с именем "Х" и номером +7 ZZZ ZZZ-ZZ-ZZ.
Норм
Это ограничение для бесплатного использования.
Комментарий недоступен
Скороговорки вполне хорошо распознаёт)
В вк теперь можно делать нормальных ботов с вебхуками?
Да, через сообщества
Комментарий удален модератором
Нахуя?!