В Salesforce научились убирать «воду» из текстов при помощи нейросетей Статьи редакции
Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.
Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.
MetaMind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.
Для оценки используется показатель ROUGE, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с «человеческой выжимкой» (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к «рукотворному идеалу».
Оценка ROUGE, получившаяся у алгоритма Salesforce, оказалась выше, чем у учёных, которые разрабатывали похожие алгоритмы в последние годы. В Salesforce объясняют это использованием сразу двух моделей для создания выжимок: «подкреплённого обучения» (алгоритм тренируется добиться более высокого ROUGE-показателя) и «курируемого обучения» (когда база старается слово в слово попасть в то, что заложено в «человеческой выжимке»).
Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений). Для второго подхода и требуется машинное обучение.
По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит «удивительно связные и точные» выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов.
Social network published a series of advertisements in newspapers in Britain on Monday.
It has removed tens of thousands of fake accounts in Britain.
It also said it would hire 3,000 more moderators, almost doubling the number of people worldwide who scan for inappropriate or offensive content.
В Salesforce считают, что алгоритм поможет быстрее читать новости или сокращать письма клиентов, с которыми постоянно сталкиваются сотрудники компании: «В 2017 году средний человек будет тратить 12 часов и 7 минут ежедневно, потребляя контент из медиа в той или иной форме, и эта цифра дальше будет только расти».
С подробностями работы алгоритма и другими примерами создания выжимки можно ознакомиться в блоге MetaMind. По всей видимости, алгоритм работает только с английским языком.
Шутка про "мой диплом после применения алгоритма"
Комментарий недоступен
Картинка не грузится!!1
Шутка про «комментарии Деда Пихто после применения алгоритма»
Где-то облегчённо выдохнул один Ильяхов.
Скоро Главред обретёт сознание и поглотит Ильяхова.
Комментарий недоступен
Мой отец
Нейросеть может грамотно сжать новость до 350 знаков, а клоны Сашина – нет.
Комментарий удален модератором
это обложка диплома по пищевым технологиям?
Комментарий удален модератором
Комментарий недоступен
Комментарий удален модератором
Комментарий недоступен
Шутка про мой код после оптимизации
нигер прилетел из нигерии в заснеженную россию
Малевич — негр?
негр - Малевич!
Комментарий недоступен
Грем — чивелан.
Комментарий недоступен
Сгор Еобин
Комментарий недоступен
Комментарий недоступен
Надо эту картинку после каждого комментария вставлять, чтобы расстояние между комментариями увеличить.
А вот это одна из моих курсовых и тема диплома, шутнички.
Ну хоть кто-то о нормальных вещах пишет курсачи.
В субботу защитил, 100 из 100.
Поздравляю!
чот одна теория. а где практика?
Вот дальше.
А какая должна быть практика?
Напомнило: https://glvrd.ru
Комментарий недоступен
ведь её убрал алгоритм
Комментарий недоступен
Осталось прикрутить к новостному агрегатору какому-нибудь и настроить, чтобы в 140 символов новость сжимал и в твиттер постил.
в чом тогда будет измеряться ебучая сжимаемость, если у картинок это шакалы?
В сашинах или пихто
Комментарий недоступен
Можно, например, в Рарах. 1 Рар = абзац/символ.
В ебучих Посейдонах???
Всю красоту речи убить хотят вообще.
Комментарий недоступен
А что если в корпусе выжимок, на основании которого он обучался, уже были заложены те или иные убеждения?)
Ну, возможно:
Юридический язык прекрасен по-своему
Если бы не касался всех, то да, интересное чтиво. Прекрасен он ещё встраиваимостью подводных камней. Отсюда и половина судебных процессов в РФ.