В отличии от прошлого раза я решил не лениться и посмотреть на деятельность всего клуба, нежели только редакции. Выгрузив все данные с помощью API и немного их почистив я сгенерировал несколько графиков. Надеюсь они вам будут интересны.
Первая картинка с динамикой общего количества постов в клубе.
Вторая с количеством уникальных авторов статей каждый месяц. Как можно заметить, количество авторов стабильно около 150-160.
Количество просмотров всех статей в клубе и статей написанных редакцией (и Ильей Чекальским). На горизонтальной шкале 1.0 означает 10 миллионов, то есть в Августе общее количество просмотров статей клуба впервые превысило отметку в 10 миллионов, с чем я вас и поздравляю.
Увидев статью на хабре о том кого цитирует Медуза, мне стало интересно кого же цитируем мы в клубе. Я учитывал не только прямые ссылки под названием статьи, но и ссылки в интро к статье, как здесь.
Этот график показывает топ 50 ресурсов по количеству ссылок за все время существования клуба.
А это топ 50 с учетом ссылок только за 2016 год. Как видите TJ очень любит TJ.
Здесь показана динамика популярность 15 самых популярных ресурсов на которые ссылались записи в клубе.
Эту картинку не очень удобно читать в статичном виде, здесь вы можете посмотреть интерактивную версию и посмотреть весь код.
Для визуализации использовал библиотеки Seaborn, Plotly и Pandas.
Если у вас есть комментарии или другие идеи для визуализации, буду рад их выслушать.
Как и каждый раз после прочтения такого поста хочется написать: «это все круто, но что все это значит?».
Что это значит - каждый решает для себя сам.
Из этих графиков можно сделать вывод, что
Автор любит графики
Я не умею писать красивые тексты и делать выводы :) Если хотите можете сделать свою запись с моими картинками.
Сразу напрашивается два вопроса:
1) с чем связан пик лета 2015?
2) с чем связан спад 2016?
Вопросы не праздные
Ну так каникулы у школьников. :D
2) с чем связан спад 2016?Школьники уехали в детский лагерь в Таиланд?
PS: извините, не удержался спетросянить.
Это не просто пики, это выбросы какие-то.
Идеи для визуализации: мини сервис, чтобы потешить свое ЧСВ. вбиваешь свой ID и тебе показывает сколько просмотров собрали все твои записи из клуба. Ну и например топ 5 твоих самых популярных статьей по количеству просмотров и по количеству плюсиков.
И назвать ТЖиша. ТЖиша нашла пять ваших постов, где больше всего лайков
И всё это через бота в телеграме
Интересно было бы разбить новости (записи в клубе) на группы (темы) и показать статистику по ним. Т.е какие темы самые популярные, какие темы чаще комментируют, а какие просто просматривают.
Так же Интересно посмотреть статистику по участникам клуба в разрезе пола, возрастов, географического положения.
Ещё интересно то, когда читают TJ, имеется в виду время суток.
Ну и как многие тут отмечали, не хватает выводов и предложений исходя из этих данных. Спасибо!
есть идеи, как автоматизировать рубрикацию по темам?
Я думал над тем чтобы использовать тематическое моделирование чтобы разбить все статьи на разные темы, но руки еще не дошли до этого. А вот пол, возраст и географическое положение не доступно по API и так же нет возможности посмотреть когда именно читают статьи. Я постараюсь сделать еще один пост, с другими графиками, где постараюсь детальнее все описать.
Комментарий недоступен
Комментарий недоступен
У вас лишняя запятая между "," и ",".
Жень, а товарищи вроде Рустама Абдуллина или господина BAS0V'а, которые, если я правильно понял, в данный момент аффилиированы с редакцией, относились к членам клуба, я правильно понимаю?
Да, мне тоже интересно. Можно уже Елистратову говорить, что клуб генерит больше редакции или нет?
Я честно говоря не слежу за местной политикой, я просто посмотрел кто в редакции на https://tjournal.ru/about
ништяк, люблю когда всё так разложено по статам ))
Очень круто, спасибо. Только не понял, что считается за ссылку на TJ? Мы же почти никогда не пишем в лиде ссылки на TJ, может, речь идёт о статьях, где нет ссылок или мы сами себе источник?
Скорее всего ссылки на предыдущие статьи, когда происходит продолжение истории или что то в этом роде. Если что то не сходится с вашими данными, укажите пожалуйста я мог и ошибиться где то.
я часто кидаю ссылки на TJ в своих текстах
А этот график чем генерировался? Похоже на то, что используется в Яндекс.Метрике.
Это библиотека plotly. Если пройдешь по ссылке в конце текста на исходники, можешь посмотреть код и потыкаться в график, он интерактивный там.
экселем же. Они тут все из экселя
Отличный пост, спасибо большое, открыл для себя много нового.
Что именно?
А че по комментсам есть?
В api их нет, вроде как
надо ищо график. какие темы (это в идеале) ну или чьи новости вызывают наибольший отклик судя по кол-ву комментов (активности обсуждения)
Комментарий недоступен
А что вы имеете ввиду под ЦП?
Интересно получилось, а можешь данные, которые выгрузил скинуть ? Ну или скрипт с помощью которого парсил=) Я бы тоже поигрался с ними, но с api и json-ом ковыряться мне долго придется=
Вот тут код с доставанием и обработкой данных: https://github.com/SomeSnm/Tj_data/blob/master/Get_data_tj2.ipynb
Но там только код без комментариев. С API не так трудно работать, стоит только разобраться немного.