Я недавно начал изучать Python в целях работы с данными и искал мини-проекты попрактиковаться. Вспомнив про API лампового TJ я решил попробовать визуализировать данные которые удастся оттуда вытащить. Но так как времени много на это тратить я не хотел, я решил взять только данные о деятельности редакторов: Никиты, Оли и Вадима.
Данные показывают их деятельность в клубе и не отображают их «Авторские» статьи, которые они писали до полного перехода на клубные статьи в начале этого года (поправьте меня если это не так).
Всего я выгрузил информацию о 2818 постах, из них Вадимом написаны 775, Ольгой 903, и Никитой 1140.
Для начала я решил посмотреть на дистрибуцию количества просмотров по постам.
Как вы видите из графиков количества статей с просмотрами меньше 1000 и между 1000 и 5000 примерно равно и составляет примерно 70% всех статей, которые написаны редакторами.
Мне стало интересно посмотреть, как эти столбцы распределятся между авторами и я получил вот такую картину.
Здесь показано количество записей, которое было написано автором в определенный день недели. Как вы могли догадаться 0 это понедельник, а 6 – воскресенье.
Судя по этому графику, на котором показано общее количество просмотров постов опубликованных в определенный день недели, публикация в пятницу это залог успеха. Даже с учетом поста о том как делался знаменитый клип Ленинграда, у которого 480 тысяч просмотров.
На этом графике распределения просмотров по месяцам видно, что редакция перешла на клубные записи в январе этого года.
Я повторил предыдущий график с логарифмическим масштабом. График выглядит приятнее, но всегда нужно помнить о том что ось Y логарифмическая.
Вот еще распределение просмотров по авторам, тоже в логарифмическом масштабе.
Мне стало интересно время активности редакции и мне кажется тут как раз подойдет график типа heatmap. На нем показано день недели и час публикации постов. День недели по оси X внизу (0-6), а час по Y 0-23.
Такой же график я сделал для каждого редактора.
Выводы:
По heatmap можно получить небольшую картину по распределению активности редакторов, Ольга больше пишет по утрам и выходным, а ребята в течении дня. Никита и Вадим любят выпускать статьи по вечерам вторников больше чем в любой будний вечер.
У меня было предположение что у редакции на неделе есть что-то типа редакционного собрания и я найду явные пробелы в графиках, но похоже что они проводятся в разное время. Хотя слот 15-16 часов во вторник выглядит светлее окружения.
Буду рад если найдете что добавить.
Илья, надо пацанам API расширить!
Выводы, где выводы?!
Выводы делайте сами
Добавил таки немного своих наблюдений. Если что-то есть добавить, пишите!
Tea pidor
Просто маленькие замечания по визуализации, которые, думаю, не трудно поправить: целые значения дней недели и часов, сделать их 1-7. Все остальное супер! Статистика всегда интересна. Возможно, что-нибудь редакция еще подскажет.
Одно только не понял. Количество просмотров по дням недели за все время было?
Парочка идей. Может быть еще сделать для топовых подписчиков? 10-30 самых рейтинговых читателей буквально. Было бы интересно посмотреть тоже. Или анализ комментариев, если позволяет API. Может даже какой-нибудь веб-сайт сделать с аналитикой по TJ более глубокой. Хотя это наверное уже будет сложнее и более ресурсозатратно. Хотя и неплохая практика в анализе данных.
Комментарий удален модератором
Нет, то что они написаны с нуля, меня как раз не напрягло. Просто для тех, кто далек от программирования, непонятно, почему индексация недели начинается не с единицы.
Буквами неделю тоже можно сделать, просто тогда это будут "Пн, Вт, Ср и так далее". По мне так цифрами лаконичней.
Количество просмотров за все время, по всем постам редакции в клубе. Про целые значения учту впредь.
Описаны сервис делать пока я не потяну думаю.
Может быть предложить это редакции? В свободное время вместе с Ильей развернуть подобный сервис аналитики на самом TJ. А то тут только можно рейтинги читателей посмотреть и все.
В любом случае, твоя статья была интересной! Сейчас должны будут подтянутся редакторы.
Здесь лучше было поделить количество просмотров в день на количество статей в день, информативней вышло бы, а так -- ну, в выходные статей меньше и соответственно просмотров меньше
Хорошо бы над каждым столбцом написать конкретное значение.
Поддержу
В последних графиках неочевидно, что по оси Y не все часы, пустые видимо пропущены. Возникает впечатление, что редакция вообще не спит. Да хотя и так спят они не особо... Вадим вообще посреди ночи встает, чтобы новость написать.
Не заметил что Никита принципиально спит по ночам.
Большое спасибо за Heatmap'ы, очень круто получилось!
я тож как-то написал бота который статистику по лайкам/дизлайкам собирал
но статью было лень писать
Ну вот на тебе плюсик
Ну хоть бы исходный код выложили!
https://github.com/Hedzin/tj/blob/master/TJ/src/likemeter.java
Можно сделать выводы, что Ольга - жаворонок, Вадим - сова, а Никита - как пойдет)
А Никита - и так сойдет)
Почему графики Елистратова неправильным цветом обозначены? Это возмутительно!
Комментарий недоступен
статистика - это зйбс. люблю статистику. :)
Комментарий недоступен
Похоже Вадима пора уволнять
Обнови статью. Там будут другие графики. У меня нормальные, например.
Перерисовал?))
Комментарий недоступен
На работу взять?
ГДЕ РЕДАКЦИЯ?! ЭЙ!
Для графиков использовал PIL?
Обошелся библиотекой Seaborn
Аж прослезился. Большой жирный лойс!
Тоже хочу научится работать с API, но с минимальными затратами на обучение. Владею только Руби. Можете для таких, как я написать пошаговую инструкцию для какого-нибудь примера?
Комментарий недоступен
А где главная мерилка — суммарное количество просмотров каждого автора?