{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}

В Salesforce научились убирать «воду» из текстов при помощи нейросетей Статьи редакции

Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.

Распечатки новостной ленты в редакции The New York Times, 1942 год. Фото Библиотеки Конгресса

Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.

MetaMind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.

Процесс работы алгоритма

Для оценки используется показатель ROUGE, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с «человеческой выжимкой» (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к «рукотворному идеалу».

Оценка ROUGE, получившаяся у алгоритма Salesforce, оказалась выше, чем у учёных, которые разрабатывали похожие алгоритмы в последние годы. В Salesforce объясняют это использованием сразу двух моделей для создания выжимок: «подкреплённого обучения» (алгоритм тренируется добиться более высокого ROUGE-показателя) и «курируемого обучения» (когда база старается слово в слово попасть в то, что заложено в «человеческой выжимке»).

Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений). Для второго подхода и требуется машинное обучение.

По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит «удивительно связные и точные» выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов.

Social network published a series of advertisements in newspapers in Britain on Monday.

It has removed tens of thousands of fake accounts in Britain.

It also said it would hire 3,000 more moderators, almost doubling the number of people worldwide who scan for inappropriate or offensive content.

выжимка из новости NYT, сократившая объём для чтения в семь раз

В Salesforce считают, что алгоритм поможет быстрее читать новости или сокращать письма клиентов, с которыми постоянно сталкиваются сотрудники компании: «В 2017 году средний человек будет тратить 12 часов и 7 минут ежедневно, потребляя контент из медиа в той или иной форме, и эта цифра дальше будет только расти».

С подробностями работы алгоритма и другими примерами создания выжимки можно ознакомиться в блоге MetaMind. По всей видимости, алгоритм работает только с английским языком.

0
50 комментариев
Написать комментарий...
Альтернативный шар

Шутка про "мой диплом после применения алгоритма"

Ответить
Развернуть ветку
Федеральный микроскоп

Комментарий недоступен

Ответить
Развернуть ветку
Изящный мангал

Картинка не грузится!!1

Ответить
Развернуть ветку
Ученый Паша

Шутка про «комментарии Деда Пихто после применения алгоритма»

Ответить
Развернуть ветку
Ученый Паша
По всей видимости, алгоритм работает только с английским языком.

Где-то облегчённо выдохнул один Ильяхов.

Ответить
Развернуть ветку
Московский мангал

Скоро Главред обретёт сознание и поглотит Ильяхова.

Ответить
Развернуть ветку
Кредитный динозавр

Комментарий недоступен

Ответить
Развернуть ветку
Интимный бинокль

Мой отец

Ответить
Развернуть ветку
Целевой Слава

Нейросеть может грамотно сжать новость до 350 знаков, а клоны Сашина – нет.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Транспортный нос
Ответить
Развернуть ветку
Всероссийский чайник
Ответить
Развернуть ветку
Газетный чайник

это обложка диплома по пищевым технологиям?

Ответить
Развернуть ветку
Газетный чайник
Ответить
Развернуть ветку
Газетный чайник
Ответить
Развернуть ветку
Газетный чайник
Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Федеральный микроскоп

Комментарий недоступен

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Длинный яд

Комментарий недоступен

Ответить
Развернуть ветку
Должный единорожек88

Шутка про мой код после оптимизации

Ответить
Развернуть ветку
Газетный чайник

нигер прилетел из нигерии в заснеженную россию

Ответить
Развернуть ветку
Московский мангал

Малевич — негр?

Ответить
Развернуть ветку
Газетный чайник

негр - Малевич!

Ответить
Развернуть ветку
Кредитный динозавр

Комментарий недоступен

Ответить
Развернуть ветку
Московский мангал

Грем — чивелан.

Ответить
Развернуть ветку
Кредитный динозавр

Комментарий недоступен

Ответить
Развернуть ветку
Невысокий волк

Сгор Еобин

Ответить
Развернуть ветку
Валютный шар

Комментарий недоступен

Ответить
Развернуть ветку
Необыкновенный бинокль

Комментарий недоступен

Ответить
Развернуть ветку
Ученый Паша

Надо эту картинку после каждого комментария вставлять, чтобы расстояние между комментариями увеличить.

Ответить
Развернуть ветку
Компьютерный крюк

А вот это одна из моих курсовых и тема диплома, шутнички.

Ответить
Развернуть ветку
Московский мангал

Ну хоть кто-то о нормальных вещах пишет курсачи.

Ответить
Развернуть ветку
Компьютерный крюк

В субботу защитил, 100 из 100.

Ответить
Развернуть ветку
Московский мангал

Поздравляю!

Ответить
Развернуть ветку
Газетный чайник

чот одна теория. а где практика?

Ответить
Развернуть ветку
Компьютерный крюк

Вот дальше.

А какая должна быть практика?

Ответить
Развернуть ветку
Московский мангал

Напомнило: https://glvrd.ru

Ответить
Развернуть ветку
Кредитный динозавр

Комментарий недоступен

Ответить
Развернуть ветку
Ученый Паша

ведь её убрал алгоритм

Ответить
Развернуть ветку
Кредитный динозавр

Комментарий недоступен

Ответить
Развернуть ветку
Целевой Слава

Осталось прикрутить к новостному агрегатору какому-нибудь и настроить, чтобы в 140 символов новость сжимал и в твиттер постил.

Ответить
Развернуть ветку
Газетный чайник

в чом тогда будет измеряться ебучая сжимаемость, если у картинок это шакалы?

Ответить
Развернуть ветку
Московский мангал

В сашинах или пихто

Ответить
Развернуть ветку
Полезный единорожек88

Комментарий недоступен

Ответить
Развернуть ветку
Целевой Слава

Можно, например, в Рарах. 1 Рар = абзац/символ.

Ответить
Развернуть ветку
Молодежный кот

В ебучих Посейдонах???

Ответить
Развернуть ветку
Жаркий Кирилл

Всю красоту речи убить хотят вообще.

Ответить
Развернуть ветку
Модный дым

Комментарий недоступен

Ответить
Развернуть ветку
Ударный волк

А что если в корпусе выжимок, на основании которого он обучался, уже были заложены те или иные убеждения?)

Ответить
Развернуть ветку
Московский мангал

Ну, возможно:

Ответить
Развернуть ветку
Жаркий Кирилл

Юридический язык прекрасен по-своему

Ответить
Развернуть ветку
Московский мангал

Если бы не касался всех, то да, интересное чтиво. Прекрасен он ещё встраиваимостью подводных камней. Отсюда и половина судебных процессов в РФ.

Ответить
Развернуть ветку
Читать все 50 комментариев
null