{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}

3 мая 2017 3.05.2017

«Это безумие! — Нет, это Google Translate!»: веб-переводчик показывает стихи в ответ на бессмыслицу Статьи редакции

Не так давно в Translate внедрили машинное обучение, чтобы улучшить качество переводов, и вот что получилось.

62 099 просмотров

Занимавшийся глубоким машинным обучением бывший сотрудник Google Дан Лу (Dan Luu) обнаружил, что если последовательно вводить несколько одинаковых иероглифов на хирагане (прим.ред.— японская письменность), добавляя одни и те же символы с каждой новой строкой, Google-переводчик выдаёт осмысленные фразы и выражения, а иногда и рифмует строки. Результат может быть самым неожиданным, несмотря на довольно просто изначальное значение символов. Об этом Дан Лу сообщил в своём твиттере.

Запись блогера приобрела вирусный эффект, за сутки набрав почти 8 тысячи ретвитов и лайков, и вдохновила других пользователей твиттера на эксперименты. Это вылилось в небольшой флешмоб.

Некоторые из пользователей шутили, что таким образом можно придумать новые способы писать сюжеты для порнофильмов или придумывать слова для популярных песен.

Как оказалось, этот эффект работает и со связкой испанский-английский.

Один из пользователей вдохновился на создание музыкального клипа по мотивам твита Дан Лу. Ролик получил название «Успешная атака».

Однако первоначально необычное поведение переводчика Google заметили на Reddit. В записи от 12 апреля 2017 года пользователь под ником DIA13OLICAL записал видео, на котором продемонстрировал, что если ввести «えぐ» на японском и повторять символы — через раз будут появляться очень забавные результаты.

Чаще всего DIA13OLICAL попадался перевод «DECEARING EGG» («Обжигающее яйцо»). Однако, чем дальше пользователь заходил — тем большая бессмыслица появлялась в переводе.

Комментаторы на YouTube в шутку отметили, что теперь юмор у машин официально лучше, чем у человека и они научились придумывать новые слова.

15 апреля на видео DIA13OLICAL отреагировали в групповом блоге о лингвистике Пеннсильванского университета. 16 апреля автор сайта Марк Либерман (Mark Liberman) обнаружил, что подобный эффект наблюдается и с повторением тайских и корейских символов. Он связал это с тем, что Google использует в Translate особую архитектуру рекуррентных нейронных сетей — LSTM (Долгая краткосрочная память). А одной из особенностей подобных систем является то, что они могут прогнозировать значения на основе введённых до этого символов, но делают это в зависимости от того, на чём они натренированы. В качестве примера Либерман привёл перевод символов «ไๅ», которые он повторил 25 раз, каждый раз добавляя по одной копии знаков в строку. В результате у него получилось стихотворение, похожее на работы американской писательницы Гертруды Стайн.

TJ провёл эксперименты с использованием русских букв и получил такие же неожиданные результаты, как и пользователь Reddit.

Также выяснилось, что баг работает и в обратную сторону: написав несколько раз подряд буквенное сочетание «ash» на английском языке, можно увидеть интересный перевод на русский.

При попытке обнаружить подтасовку переводов через «предложения» (прим.ред — раньше это случалось довольно часто), Google Translate выдал верный ответ.

TJ обратился к российскому представительству Google, но компания не прокомментировала ситуацию.

В конце 2016 года Google начала использовать нейросети в своём переводчике. Тогда пользователи заметили, что качество переводов значительно выросло, а в некоторых случаях дошло до уровня профессионалов. Например, профессор Токийского университета Дзюн Рэкимото (Jun Rekimoto) перевёл один абзац из книги «Снега Килиманджаро» самостоятельно на японский, а затем с помощью Google Translate обратно на английский. После этого он опубликовал в твиттере два варианта — англоязычный оригинал и свою интерпретацию, переведённую Google, и предложил cвоим подписчикам в Твиттере отгадать, что было оригиналом. Большинство пользователей приняло за «официальный» вариант Рэкимото.

#технологии #google #золотойфонд

25 комментариев

Написать комментарий...

Соседний холод

3.05.2017

TJ обратился к российскому представительству Google, но компания не прокомментировала ситуацию.

Ответить

Развернуть ветку

Понятный алмаз

3.05.2017

ну они же ответили) просто не стали давать комментарий)

Ответить

Развернуть ветку

Подходящий хичхакер

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Понятный алмаз

4.05.2017

Спасибо, поправил

Ответить

Развернуть ветку

Подходящий хичхакер

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Поразительный кавалер

4.05.2017

Теперь я знаю кто пишет все эти ТЖ комменты

Ответить

Развернуть ветку

Подходящий хичхакер

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Всероссийский чайник

4.05.2017

смотрите, что мне нейросеть по-немецки сгенерировала:
Du
Du hast
Du hast mich
Du
Du hast
Du hast mich
Du hast mich
Du hast mich gefragt
Du hast mich gefragt
Du hast mich gefragt und ich hab nichts gesagt
Willst du bis der Tod euch scheidet
Treu ihr sein für alle Tage
Nein
Willst du bis der Tod euch scheidet
Treu ihr sein für alle Tage
Nein

Ответить

Развернуть ветку

Страховой ключ

3.05.2017

Доработали бы Ютуб что ли в этом Гугле, многие не понимают почему видео только в 320р или начинается не сначала, да и ещё там косяков полно.

Ответить

Развернуть ветку

Передовой пёс_анон

4.05.2017

Да ютуб вообще в последнее время нормально и в полной мере работает только в хроме. Понятно, что Гугл хочет привлечь больше пользователей для своего браузера, но это как-то не совсем честно.

Ответить

Развернуть ветку

Украинский Женя

3.05.2017

Больше смысла чем в текстах русской попсы.

Ответить

Развернуть ветку

Подходящий хичхакер

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Неведомый Орзэмэс

4.05.2017

Напоминает.

Ответить

Развернуть ветку

Подходящий хичхакер

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Валютный шар

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Валютный шар

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Понятный алмаз

4.05.2017

Дзюна исправил, спасибо

Ответить

Развернуть ветку

Понятный алмаз

4.05.2017

Первоначально термин «иероглиф» употреблялся по отношению к древнеегипетскому письму, в котором сочетались элементы идеографического, силлабического и фонетического (акрофонического) писем. Сейчас кроме этого термин применяется для характеристики знаков китайского письма, а также знаков кандзи и кокудзи в японском языке (они используются в комбинации со слоговыми азбуками: катаканой и хираганой

Ответить

Развернуть ветку

Валютный шар

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Валютный шар

4.05.2017

Комментарий недоступен

Ответить

Развернуть ветку

Всероссийский чайник

4.05.2017

Ответить

Развернуть ветку

Защитный Женя

3.05.2017

какого, блядь, Хэмингуэя?

Ответить

Развернуть ветку

Защитный Женя

4.05.2017

молодцы, поправили

Ответить

Развернуть ветку

Понятный алмаз

4.05.2017

Речь, кстати, и правда была о Хемингуэе. Перепутаны были названия произведений.

Ответить

Развернуть ветку

Защитный Женя

4.05.2017

ну дела это не меняет)

Ответить

Развернуть ветку

Написать комментарий...

Читать все 25 комментариев