Неделю назад Kat Vance проанализировал все комментарии пользователей TJ за 5 лет. С помощью этих данных я создал индекс вежливости пользователей на основе написанных вами комментариев.
(интерактивная версия, работает приближение и клик, показаны 4445 пользователей, написавших не менее 10 комментариев, по оси x средняя вежливость комментариев пользователя, по оси у — количество написанных им комментариев, цвет означает среднюю оценку комментариев)
Самые грубые и вежливые пользователи
Лидерами по грубости оказались:
1. Qpwoeiruty Alskdjfhgmzxncbv (вежливость: 0.994, ср. оценка комментариев: -16.846)
2. Gleb Chernobay (вежливость: 1.013, ср. оценка комментариев: -2.273)
3. Крэйтор (вежливость: 1.013, ср. оценка комментариев: 0.200)
4. Djack Warflow (вежливость: 1.018, ср. оценка комментариев: 0.000)
5. Артем Федоров (вежливость: 1.020, ср. оценка комментариев: -12.524)
Самыми же вежливыми стали:
1. Евгений Зелёный (вежливость: 1.245, ср. оценка комментариев: 13.600)
2. Дискорд (вежливость: 1.222, ср. оценка комментариев: -6.700)
3. Дмитрий Рылов (вежливость: 1.221, ср. оценка комментариев: 0.133)
4. Max Zacepin (вежливость: 1.212, ср. оценка комментариев: 0.500)
5. Алексей Гончаров (вежливость: 1.203, ср. оценка комментариев: 3.154)
Оценки не взвешены по количеству комментариев. Если вы оставили больше 10 комментариев, вы можете прочитать топ-5 ваших самых грубых комментариев по ссылке, которую я оставлю в комментариях к этой записи, чтобы не подводить редакцию TJ под регулирование Роскомнадзора.
Как это сделано
Конечно, все написанные выше слова «вежливый» и «грубый» следует заключить в кавычки. Этот эксперимент не претендует на моральную или иную оценку. Иронично, что самыми вежливыми признаны спамеры, боты и участники этой акции, которые не оставили больше никаких комментариев. Как писал Томас Элиот:
Endless invention, endless experiment,
Brings knowledge of motion, but not of stillness;
Knowledge of speech, but not of silence;
Knowledge of words, and ignorance of The Word.
Каждый ваш комментарий я разбил на слова, каждое из которых превратил в вектор размерностью 500 чисел из word2vec модели, натренированной Arefyev et al. (2015) на 150ГБ русской литературы — 170МБ+ ваших комментариев оказалось недостаточно для тренировки.
Согласно дистрибутивной гипотезе, такие вектора содержат информацию о значении слов. Потом я усреднил вектора слов для каждого комментария и получил его 500-размерный семантический слепок. Далее я избрал этот комментарий (NSFW) как референтно грубый. Осталось вычислить L2-Евклидово расстояние от вектора каждого комментария до вектора указанного референтно грубого комментария. Это дало меру «вежливости» комментария — как далеко он находится от избранного грубого с точки зрения их семантических векторов. Потом я усреднил такую дистанцию-«вежливость» по пользователям и отобразил ее на графике.
Конечно, описанный подход не без недостатков: мы точно можем выявить крайне грубые комментарии, а вот с градациями грубости сложнее. Проблемы могли возникнуть на этапе усреднения, выбора референтного комментария, выбора меры расстояния. Научить машину понимать смысл текста — задача, требующая не только большого количества тренировочных данных, но и архитектурной магии.
Никого не напрягает что наши комментарии анализирует молчун оставивший за 2 года всего 7 комментов?
Это анти-дед. Мало пишет и много анализирует.
"Это не моя основная работа. Мне дали задание, нарыть на каждого члена TJ компромат: какой-нибудь комментарий, который можно будет расценить как экстремистский, или оскорбляющий чувства верующих. Но я немного отвлёкся и в свободное время сделал для вас статистику вежливости".
Комментарий недоступен
Меня больше напрягают чуваки которые их анализируют молча.
товарищ майор выявляет неблагонадежные элементы?
Эта работа достойна выдвижения на Шнобелевскую премию
Комментарий недоступен
Комментарий недоступен
тоже нихуя не поняла, правда у меня есть оправдание в виде пива, но в любом случае чота
Здесь (https://skougarevskiy.carto.com/tables/tjournal_author_obscenity/public/map) вы можете найти top-5 самых грубых ваших комментариев, если вы оставили больше 10 (колонки top_1_comment_text...top_5_comment_text). SQL API: https://skougarevskiy.carto.com/api/v2/sql?q=SELECT author, top_1_comment_text, top_2_comment_text, top_3_comment_text, top_4_comment_text, top_5_comment_text FROM tjournal_author_obscenity WHERE authorid = 1.
Лол. Два из пяти топ-5 грубых "Ты – хуй".
нихуя себе. а я где? на айпаде вертикальный скрол не але.
Это анализ уровня пиздец. (Я восхищён если что)
Только есть замечания. Можно сделать карту с чуваками не с больше 10 комментариями, а сделать фильтр в 100 или даже в 1000.
Потому что всех, кто оставил меньше вряд ли кто помнит, нонеймы же.
А те кто оставил много, уже свои, родные.
А можно мне мой топ? Я не умею в SQL API, а на сайте не нашёл. =(
Комментарий недоступен
Комментарий удален модератором
Комментарий удален модератором
Вы очень любезный и добрый человек. С вами я готов беседовать на эти замечательные темы очень долго. Мне приятно, что мы с вами знакомы так долго - сколько существует этот божественный Мир. Я никогда не встречал такого проницательного, великодушного, добросердечного, милого, ответственного, красивого, уступительного, вежливого, улыбчивого, нежного человека, который всегда говорит спасибо.
"author":"Musalav Alibekov","top_1_comment_text":"Пидор, пизда, туз, малафья"
Комментарий недоступен
кто-нить видел хоть один камент кого-нить из обоих топов?
Пошёл на хуй, тупорылый ебанат!
А сможешь замутить поиск по пользователям ? )
"skougarevskiy.carto.com/api/v2/sql?q=SELECT author, top_1_comment_text, top_2_comment_text, top_3_comment_text, top_4_comment_text, top_5_comment_text FROM tjournal_author_obscenity WHERE authorid = 69469" покажет ваш топ-5.
1. > истеричка и обиженка
Ну я и говорю!,
2. А мне вот рисовка доставила, стильно, небанально, хз чо за бугурт.
3. Сечешь!
4. Блин, ну го поможем мужику мб?
5. Окей, с Ди все понятно, он впрягается за экологию перманентно. Пан Ги Мун - ну тоже можно понять. Но при чем здесь принц Монако?.. Потому что у него имя клевое?
Я такой грубый!
Комментарий недоступен
Сука, бля, почему я не в вежливых?
Комментарий недоступен
Комментарий недоступен
Что за хуйня? Как искать свой индекс вежливости, если я с мобильного браузера?
Никак, на десктопе так же.
Нулевую ось бы изобразить на графике, при зуме вообще ни черта не ясно
Да и не только нулевую, вообще хоть какие-то обозначения и отметки вместо сплошной каши. Затея хороша, исполнение на троечку
Сила - в равновесии.
Пошли все на хуй, пожалуйста, если вас не затруднит.
Ну, ты просто ни с кем не вступаешь в спор )))
2. что блядь?
3. что блядь что?
4. Ты пидор.
5. Ты пидор?
Или как использовать словарный запас из 4х слов.
Комментарий недоступен
Чёто мне этот момент не нравится. Похоже на шутку о том что живое и мёртвое это одно и то же потому что полуживой и полумёртвый это одно и то же
Комментарий удален модератором
Отбросив детали семантического анализа, по мне так суть получается упрощенно такая: собираем из эталонного комментария усередненное грубое слово. Каждый комментарий также сжимаем в усередненное слово и сравниваем с ним. И тут к модели возникает вопрос - чем короче коммент, тем больше шанс его быть очень вежливым или очень злым (что прослеживается по списку грубиянов и белых пушистиков)? Мое понимание корректно?
Учитываются ли как-то при таком анализе вводные слова вроде "ты" и "иди" - которые могут увеличивать, а могут и нет злобность коммента?
Ну и с эталонным комментарием бы поиграть
Комментарий недоступен
В тот момент, когда было решено, что все сравнивается с комментом в меньше 100 слов, да ещё и по L2, нужно было остановиться.
Ну ты хоть правильно всё понял в отличии от Kat Vance. Только ведь в статье и так всё так и сказано, зачем повторять?
Комментарий недоступен
Комментарий недоступен
Комментарий недоступен
Теперь это твой самый грубый комментарий.
Только меня напрягает, что на графе Пихто отображен в топе, а в текстовой - Евгений Зелёный?
Как это обьяснишь, автоор?
Там по оси Y не вежливость, а количество комментариев. По оси Х лидирует, как и полагается, Евгений Зелёный.
Комментарий недоступен
1. "А как ж Мартышка?"
2. "Ох, блин, как ж я так… *накрывается простыней и ползёт к газенвагену* "
3. "Зачем, если свинина — не кошер (если не прав — поц просит поправить), а баранина пахнет не хуже?"
4. "Не, я конечно понимаю, что повязать за яйца - это особый шик, но конвоирование преступника, у которого жопа и прочий срам будет у всех на виду, чревато логической бомбой"
5. "Никого не обвиняю, просто вспомнилась жежешная аксиома «аноним хуже пидараса»"
"Садись, Штрих - два! Учись разводить срачи дальше..."
Комментарий недоступен
По комментариям юзеров Qpwoeiruty Alskdjfhgmzxncbv, Gleb Chernobay, Крэйтор, Djack Warflow, Артем Федоров.
чот я вежливый на вашем фоне
Вежливые люди
Размазня
По такому анализу дубли аккаунтов можно искать)
Комментарий недоступен
Комментарий недоступен
Блять, я вообще себя не нашел(
Тоже самое.
1. «Ты чо ёпта рамсы бля попутал, ты на кого пидор блять лясы точишь, петушатня ебаная».
2. «Ваша честь, вы рукоблуд, ссанина, очко, блядун, вагина (спустя две минуты) мошонка, елда! У меня все, ваша честь».
3. «Пизда рублику».
4. «Ну все, пизда моим 6,23₽».
5. «У ануса твоего падение, пес ебаный».
Комментарий недоступен
Комментарий удален модератором
Охренеть! Чувак, ты Бог
Пиздато. Пилите ещё!
Жду, когда кто-нибудь по комментариям вычислит сексуальную ориентацию каждого и сведет в таблицу.
Ну вот, хотел начать изучать word2vec,тренируясь на тжшных комментах, но меня опередили.
Комментарий недоступен
Комментарий недоступен
Охуеть сколько ошибок у тебя. Позорище. Выпиливайся.
Не особо хороший алгоритм, видимо.
Кстати слово пидор на тж не является грубым, переделываю все
Комментарий недоступен
Зелененькие, это те кто стараются шутить, а красненькие, кто просто пиздит сверх меры ну и девианты.
Условно "зелёненькие" - шутники хорошие, условно "красненькие" - шутники плохие, условно "жёлтенькие" - особо не рискующие шутковать.
Мой пятый коммент звучит как "да ваще пофигу") я ожидала, что всё будет хуже :D
Какого хуя меня нет в рейтинге
Я – шестой по количеству комментов. Грёбаный стыд
Комментарий удален модератором
Стыд мне.
Не расстраивайся. Ивахнов вот меньше чем за год намотал больше, чем ты за 3.
Комментарий недоступен