«Это безумие! — Нет, это Google Translate!»: веб-переводчик показывает стихи в ответ на бессмыслицу Статьи редакции
Не так давно в Translate внедрили машинное обучение, чтобы улучшить качество переводов, и вот что получилось.
Занимавшийся глубоким машинным обучением бывший сотрудник Google Дан Лу (Dan Luu) обнаружил, что если последовательно вводить несколько одинаковых иероглифов на хирагане (прим.ред.— японская письменность), добавляя одни и те же символы с каждой новой строкой, Google-переводчик выдаёт осмысленные фразы и выражения, а иногда и рифмует строки. Результат может быть самым неожиданным, несмотря на довольно просто изначальное значение символов. Об этом Дан Лу сообщил в своём твиттере.
Запись блогера приобрела вирусный эффект, за сутки набрав почти 8 тысячи ретвитов и лайков, и вдохновила других пользователей твиттера на эксперименты. Это вылилось в небольшой флешмоб.
Некоторые из пользователей шутили, что таким образом можно придумать новые способы писать сюжеты для порнофильмов или придумывать слова для популярных песен.
Как оказалось, этот эффект работает и со связкой испанский-английский.
Один из пользователей вдохновился на создание музыкального клипа по мотивам твита Дан Лу. Ролик получил название «Успешная атака».
Однако первоначально необычное поведение переводчика Google заметили на Reddit. В записи от 12 апреля 2017 года пользователь под ником DIA13OLICAL записал видео, на котором продемонстрировал, что если ввести «えぐ» на японском и повторять символы — через раз будут появляться очень забавные результаты.
Чаще всего DIA13OLICAL попадался перевод «DECEARING EGG» («Обжигающее яйцо»). Однако, чем дальше пользователь заходил — тем большая бессмыслица появлялась в переводе.
Комментаторы на YouTube в шутку отметили, что теперь юмор у машин официально лучше, чем у человека и они научились придумывать новые слова.
15 апреля на видео DIA13OLICAL отреагировали в групповом блоге о лингвистике Пеннсильванского университета. 16 апреля автор сайта Марк Либерман (Mark Liberman) обнаружил, что подобный эффект наблюдается и с повторением тайских и корейских символов. Он связал это с тем, что Google использует в Translate особую архитектуру рекуррентных нейронных сетей — LSTM (Долгая краткосрочная память). А одной из особенностей подобных систем является то, что они могут прогнозировать значения на основе введённых до этого символов, но делают это в зависимости от того, на чём они натренированы. В качестве примера Либерман привёл перевод символов «ไๅ», которые он повторил 25 раз, каждый раз добавляя по одной копии знаков в строку. В результате у него получилось стихотворение, похожее на работы американской писательницы Гертруды Стайн.
TJ провёл эксперименты с использованием русских букв и получил такие же неожиданные результаты, как и пользователь Reddit.
Также выяснилось, что баг работает и в обратную сторону: написав несколько раз подряд буквенное сочетание «ash» на английском языке, можно увидеть интересный перевод на русский.
При попытке обнаружить подтасовку переводов через «предложения» (прим.ред — раньше это случалось довольно часто), Google Translate выдал верный ответ.
TJ обратился к российскому представительству Google, но компания не прокомментировала ситуацию.
В конце 2016 года Google начала использовать нейросети в своём переводчике. Тогда пользователи заметили, что качество переводов значительно выросло, а в некоторых случаях дошло до уровня профессионалов. Например, профессор Токийского университета Дзюн Рэкимото (Jun Rekimoto) перевёл один абзац из книги «Снега Килиманджаро» самостоятельно на японский, а затем с помощью Google Translate обратно на английский. После этого он опубликовал в твиттере два варианта — англоязычный оригинал и свою интерпретацию, переведённую Google, и предложил cвоим подписчикам в Твиттере отгадать, что было оригиналом. Большинство пользователей приняло за «официальный» вариант Рэкимото.
ну они же ответили) просто не стали давать комментарий)
Комментарий недоступен
Спасибо, поправил
Комментарий недоступен
Теперь я знаю кто пишет все эти ТЖ комменты
Комментарий недоступен
смотрите, что мне нейросеть по-немецки сгенерировала:
Du
Du hast
Du hast mich
Du
Du hast
Du hast mich
Du hast mich
Du hast mich gefragt
Du hast mich gefragt
Du hast mich gefragt und ich hab nichts gesagt
Willst du bis der Tod euch scheidet
Treu ihr sein für alle Tage
Nein
Willst du bis der Tod euch scheidet
Treu ihr sein für alle Tage
Nein
Доработали бы Ютуб что ли в этом Гугле, многие не понимают почему видео только в 320р или начинается не сначала, да и ещё там косяков полно.
Да ютуб вообще в последнее время нормально и в полной мере работает только в хроме. Понятно, что Гугл хочет привлечь больше пользователей для своего браузера, но это как-то не совсем честно.
Больше смысла чем в текстах русской попсы.
Комментарий недоступен
Напоминает.
Комментарий недоступен
Комментарий недоступен
Комментарий недоступен
Дзюна исправил, спасибо
Комментарий недоступен
Комментарий недоступен
какого, блядь, Хэмингуэя?
молодцы, поправили
Речь, кстати, и правда была о Хемингуэе. Перепутаны были названия произведений.
ну дела это не меняет)