{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}

Небольшая визуализация деятельности редакции

Я недавно начал изучать Python в целях работы с данными и искал мини-проекты попрактиковаться. Вспомнив про API лампового TJ я решил попробовать визуализировать данные которые удастся оттуда вытащить. Но так как времени много на это тратить я не хотел, я решил взять только данные о деятельности редакторов: Никиты, Оли и Вадима.

Данные показывают их деятельность в клубе и не отображают их «Авторские» статьи, которые они писали до полного перехода на клубные статьи в начале этого года (поправьте меня если это не так).

Всего я выгрузил информацию о 2818 постах, из них Вадимом написаны 775, Ольгой 903, и Никитой 1140.

Для начала я решил посмотреть на дистрибуцию количества просмотров по постам.

Постов по количеству просмотров

Как вы видите из графиков количества статей с просмотрами меньше 1000 и между 1000 и 5000 примерно равно и составляет примерно 70% всех статей, которые написаны редакторами.

Мне стало интересно посмотреть, как эти столбцы распределятся между авторами и я получил вот такую картину.

Здесь показано количество записей, которое было написано автором в определенный день недели. Как вы могли догадаться 0 это понедельник, а 6 – воскресенье.

Количество статей в день недели

Судя по этому графику, на котором показано общее количество просмотров постов опубликованных в определенный день недели, публикация в пятницу это залог успеха. Даже с учетом поста о том как делался знаменитый клип Ленинграда, у которого 480 тысяч просмотров.

Общее количество просмотров по дням недели

На этом графике распределения просмотров по месяцам видно, что редакция перешла на клубные записи в январе этого года.

Общее количество просмотров по месяцам

Я повторил предыдущий график с логарифмическим масштабом. График выглядит приятнее, но всегда нужно помнить о том что ось Y логарифмическая.

С логарифмическим масштабом

Вот еще распределение просмотров по авторам, тоже в логарифмическом масштабе.

Просмотры по авторам за каждый месяц

Мне стало интересно время активности редакции и мне кажется тут как раз подойдет график типа heatmap. На нем показано день недели и час публикации постов. День недели по оси X внизу (0-6), а час по Y 0-23.

Количество статей в определенный час недели

Такой же график я сделал для каждого редактора.

Для Никиты Лихачева
Для Ольги Жигулиной
Для Вадима Елистратова

Выводы:

По heatmap можно получить небольшую картину по распределению активности редакторов, Ольга больше пишет по утрам и выходным, а ребята в течении дня. Никита и Вадим любят выпускать статьи по вечерам вторников больше чем в любой будний вечер.

У меня было предположение что у редакции на неделе есть что-то типа редакционного собрания и я найду явные пробелы в графиках, но похоже что они проводятся в разное время. Хотя слот 15-16 часов во вторник выглядит светлее окружения.

Буду рад если найдете что добавить.

Для визуализации я использовал Seaborn, а для обработки данных pandas.

Готов выслушать ваши комментарии. Если что-то сделал не так подскажите что именно, и как можно это поправить.

0
36 комментариев
Написать комментарий...
Мужской Паша

Илья, надо пацанам API расширить!

Ответить
Развернуть ветку
Обширный Кирилл

Выводы, где выводы?!

Ответить
Развернуть ветку
Итальянский алмаз

Выводы делайте сами

Ответить
Развернуть ветку
Итальянский алмаз

Добавил таки немного своих наблюдений. Если что-то есть добавить, пишите!

Ответить
Развернуть ветку
Неясный кот

Tea pidor

Ответить
Развернуть ветку
Бурный Данила

Просто маленькие замечания по визуализации, которые, думаю, не трудно поправить: целые значения дней недели и часов, сделать их 1-7. Все остальное супер! Статистика всегда интересна. Возможно, что-нибудь редакция еще подскажет.

Одно только не понял. Количество просмотров по дням недели за все время было?

Парочка идей. Может быть еще сделать для топовых подписчиков? 10-30 самых рейтинговых читателей буквально. Было бы интересно посмотреть тоже. Или анализ комментариев, если позволяет API. Может даже какой-нибудь веб-сайт сделать с аналитикой по TJ более глубокой. Хотя это наверное уже будет сложнее и более ресурсозатратно. Хотя и неплохая практика в анализе данных.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Бурный Данила

Нет, то что они написаны с нуля, меня как раз не напрягло. Просто для тех, кто далек от программирования, непонятно, почему индексация недели начинается не с единицы.
Буквами неделю тоже можно сделать, просто тогда это будут "Пн, Вт, Ср и так далее". По мне так цифрами лаконичней.

Ответить
Развернуть ветку
Итальянский алмаз

Количество просмотров за все время, по всем постам редакции в клубе. Про целые значения учту впредь.
Описаны сервис делать пока я не потяну думаю.

Ответить
Развернуть ветку
Бурный Данила

Может быть предложить это редакции? В свободное время вместе с Ильей развернуть подобный сервис аналитики на самом TJ. А то тут только можно рейтинги читателей посмотреть и все.
В любом случае, твоя статья была интересной! Сейчас должны будут подтянутся редакторы.

Ответить
Развернуть ветку
Молодой бас
Общее количество просмотров по дням недели

Здесь лучше было поделить количество просмотров в день на количество статей в день, информативней вышло бы, а так -- ну, в выходные статей меньше и соответственно просмотров меньше

Ответить
Развернуть ветку
Мокрый глобус

Хорошо бы над каждым столбцом написать конкретное значение.

Ответить
Развернуть ветку
Культурный динозавр

Поддержу

Ответить
Развернуть ветку
Одетый лолипоп

В последних графиках неочевидно, что по оси Y не все часы, пустые видимо пропущены. Возникает впечатление, что редакция вообще не спит. Да хотя и так спят они не особо... Вадим вообще посреди ночи встает, чтобы новость написать.

Ответить
Развернуть ветку
Итальянский алмаз

Не заметил что Никита принципиально спит по ночам.

Ответить
Развернуть ветку
Властный диод

Большое спасибо за Heatmap'ы, очень круто получилось!

Ответить
Развернуть ветку
Передовой паркур

я тож как-то написал бота который статистику по лайкам/дизлайкам собирал
но статью было лень писать

Ответить
Развернуть ветку
Земной каякер

Ну вот на тебе плюсик

Ответить
Развернуть ветку
Китайский месяц

Ну хоть бы исходный код выложили!

Ответить
Развернуть ветку
Передовой паркур
Ответить
Развернуть ветку
Культурный динозавр

Можно сделать выводы, что Ольга - жаворонок, Вадим - сова, а Никита - как пойдет)

Ответить
Развернуть ветку
Полицейский блик

А Никита - и так сойдет)

Ответить
Развернуть ветку
Неясный кот

Почему графики Елистратова неправильным цветом обозначены? Это возмутительно!

Ответить
Развернуть ветку
Убежденный цветок

Комментарий недоступен

Ответить
Развернуть ветку
Скучный хот-дог

статистика - это зйбс. люблю статистику. :)

Ответить
Развернуть ветку
Компьютерный файл

Комментарий недоступен

Ответить
Развернуть ветку
Виноватый парфюмер

Похоже Вадима пора уволнять

Ответить
Развернуть ветку
Трудовой фонарь

Обнови статью. Там будут другие графики. У меня нормальные, например.

Ответить
Развернуть ветку
Неясный кот

Перерисовал?))

Ответить
Развернуть ветку
Невысокий Мика

Комментарий недоступен

Ответить
Развернуть ветку
Одетый лолипоп

На работу взять?

Ответить
Развернуть ветку
Бурный Данила

ГДЕ РЕДАКЦИЯ?! ЭЙ!

Ответить
Развернуть ветку
Полицейский блик

Для графиков использовал PIL?

Ответить
Развернуть ветку
Итальянский алмаз

Обошелся библиотекой Seaborn

Ответить
Развернуть ветку
Средневековый динозавр

Аж прослезился. Большой жирный лойс!

Тоже хочу научится работать с API, но с минимальными затратами на обучение. Владею только Руби. Можете для таких, как я написать пошаговую инструкцию для какого-нибудь примера?

Ответить
Развернуть ветку
Серьезный пёс_анон

Комментарий недоступен

Ответить
Развернуть ветку
Достойный Данила

А где главная мерилка — суммарное количество просмотров каждого автора?

Ответить
Развернуть ветку
Читать все 36 комментариев
null