{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}

Визуализация деятельности клуба

В отличии от прошлого раза я решил не лениться и посмотреть на деятельность всего клуба, нежели только редакции. Выгрузив все данные с помощью API и немного их почистив я сгенерировал несколько графиков. Надеюсь они вам будут интересны.

Первая картинка с динамикой общего количества постов в клубе.

Количество постов в клубе

Вторая с количеством уникальных авторов статей каждый месяц. Как можно заметить, количество авторов стабильно около 150-160.

Количество авторов

Количество просмотров всех статей в клубе и статей написанных редакцией (и Ильей Чекальским). На горизонтальной шкале 1.0 означает 10 миллионов, то есть в Августе общее количество просмотров статей клуба впервые превысило отметку в 10 миллионов, с чем я вас и поздравляю.

Общее количество просмотров записей в клубе

Увидев статью на хабре о том кого цитирует Медуза, мне стало интересно кого же цитируем мы в клубе. Я учитывал не только прямые ссылки под названием статьи, но и ссылки в интро к статье, как здесь.

Этот график показывает топ 50 ресурсов по количеству ссылок за все время существования клуба.

Топ 50 за все время

А это топ 50 с учетом ссылок только за 2016 год. Как видите TJ очень любит TJ.

Данные за 2016 год

Здесь показана динамика популярность 15 самых популярных ресурсов на которые ссылались записи в клубе.

Динамика популярности ресурсов

Эту картинку не очень удобно читать в статичном виде, здесь вы можете посмотреть интерактивную версию и посмотреть весь код.

Для визуализации использовал библиотеки Seaborn, Plotly и Pandas.

Если у вас есть комментарии или другие идеи для визуализации, буду рад их выслушать.

0
85 комментариев
Написать комментарий...
Отечественный томагавк_два

Как и каждый раз после прочтения такого поста хочется написать: «это все круто, но что все это значит?».

Ответить
Развернуть ветку
Решительный корабль

Что это значит - каждый решает для себя сам.

Ответить
Развернуть ветку
1 комментарий
Военный огонь

Из этих графиков можно сделать вывод, что

Ответить
Развернуть ветку
Начальный франт

Автор любит графики

Ответить
Развернуть ветку
Непосредственный пришелец

Я не умею писать красивые тексты и делать выводы :) Если хотите можете сделать свою запись с моими картинками.

Ответить
Развернуть ветку
2 комментария
Всероссийский чайник
Первая картинка с динамикой общего количества постов в клубе.

Сразу напрашивается два вопроса:
1) с чем связан пик лета 2015?
2) с чем связан спад 2016?

Вопросы не праздные

Ответить
Развернуть ветку
Слышный браслет
с чем связан пик лета 2015?

Ну так каникулы у школьников. :D

2) с чем связан спад 2016?

Школьники уехали в детский лагерь в Таиланд?

PS: извините, не удержался спетросянить.

Ответить
Развернуть ветку
1 комментарий
Символический дым

Это не просто пики, это выбросы какие-то.

Ответить
Развернуть ветку
6 комментариев
Слышный браслет

Идеи для визуализации: мини сервис, чтобы потешить свое ЧСВ. вбиваешь свой ID и тебе показывает сколько просмотров собрали все твои записи из клуба. Ну и например топ 5 твоих самых популярных статьей по количеству просмотров и по количеству плюсиков.

Ответить
Развернуть ветку
Начальный франт

И назвать ТЖиша. ТЖиша нашла пять ваших постов, где больше всего лайков

Ответить
Развернуть ветку
1 комментарий
Повышенный химик

И всё это через бота в телеграме

Ответить
Развернуть ветку
Традиционный Женя

Интересно было бы разбить новости (записи в клубе) на группы (темы) и показать статистику по ним. Т.е какие темы самые популярные, какие темы чаще комментируют, а какие просто просматривают.

Так же Интересно посмотреть статистику по участникам клуба в разрезе пола, возрастов, географического положения.

Ещё интересно то, когда читают TJ, имеется в виду время суток.

Ну и как многие тут отмечали, не хватает выводов и предложений исходя из этих данных. Спасибо!

Ответить
Развернуть ветку
Всероссийский чайник

есть идеи, как автоматизировать рубрикацию по темам?

Ответить
Развернуть ветку
Непосредственный пришелец

Я думал над тем чтобы использовать тематическое моделирование чтобы разбить все статьи на разные темы, но руки еще не дошли до этого. А вот пол, возраст и географическое положение не доступно по API и так же нет возможности посмотреть когда именно читают статьи. Я постараюсь сделать еще один пост, с другими графиками, где постараюсь детальнее все описать.

Ответить
Развернуть ветку
5 комментариев
Хитрый Валера

Комментарий недоступен

Ответить
Развернуть ветку
Валютный шар

Комментарий недоступен

Ответить
Развернуть ветку
Решительный корабль

У вас лишняя запятая между "," и ",".

Ответить
Развернуть ветку
Всероссийский чайник
Количество просмотров всех статей в клубе и статей написанных редакцией (и Ильей Чекальским)

Жень, а товарищи вроде Рустама Абдуллина или господина BAS0V'а, которые, если я правильно понял, в данный момент аффилиированы с редакцией, относились к членам клуба, я правильно понимаю?

Ответить
Развернуть ветку
Редкий бокал

Да, мне тоже интересно. Можно уже Елистратову говорить, что клуб генерит больше редакции или нет?

Ответить
Развернуть ветку
2 комментария
Непосредственный пришелец

Я честно говоря не слежу за местной политикой, я просто посмотрел кто в редакции на https://tjournal.ru/about

Ответить
Развернуть ветку
15 комментариев
Всероссийский чайник

ништяк, люблю когда всё так разложено по статам ))

Ответить
Развернуть ветку
Партийный кот

Очень круто, спасибо. Только не понял, что считается за ссылку на TJ? Мы же почти никогда не пишем в лиде ссылки на TJ, может, речь идёт о статьях, где нет ссылок или мы сами себе источник?

Ответить
Развернуть ветку
Непосредственный пришелец

Скорее всего ссылки на предыдущие статьи, когда происходит продолжение истории или что то в этом роде. Если что то не сходится с вашими данными, укажите пожалуйста я мог и ошибиться где то.

Ответить
Развернуть ветку
Всероссийский чайник

я часто кидаю ссылки на TJ в своих текстах

Ответить
Развернуть ветку
Редкий бокал

А этот график чем генерировался? Похоже на то, что используется в Яндекс.Метрике.

Ответить
Развернуть ветку
Непосредственный пришелец

Это библиотека plotly. Если пройдешь по ссылке в конце текста на исходники, можешь посмотреть код и потыкаться в график, он интерактивный там.

Ответить
Развернуть ветку
1 комментарий
Всероссийский чайник

экселем же. Они тут все из экселя

Ответить
Развернуть ветку
Кожаный файл

Отличный пост, спасибо большое, открыл для себя много нового.

Ответить
Развернуть ветку
Транспортный нос

Что именно?

Ответить
Развернуть ветку
Дополнительный инструмент

А че по комментсам есть?

Ответить
Развернуть ветку
Редкий бокал

В api их нет, вроде как

Ответить
Развернуть ветку
5 комментариев
Незнакомый волк

надо ищо график. какие темы (это в идеале) ну или чьи новости вызывают наибольший отклик судя по кол-ву комментов (активности обсуждения)

Ответить
Развернуть ветку
Полезный единорожек88

Комментарий недоступен

Ответить
Развернуть ветку
Непосредственный пришелец

А что вы имеете ввиду под ЦП?

Ответить
Развернуть ветку
2 комментария
Советский рубин

Интересно получилось, а можешь данные, которые выгрузил скинуть ? Ну или скрипт с помощью которого парсил=) Я бы тоже поигрался с ними, но с api и json-ом ковыряться мне долго придется=

Ответить
Развернуть ветку
Непосредственный пришелец

Вот тут код с доставанием и обработкой данных: https://github.com/SomeSnm/Tj_data/blob/master/Get_data_tj2.ipynb
Но там только код без комментариев. С API не так трудно работать, стоит только разобраться немного.

Ответить
Развернуть ветку
8 комментариев
Читать все 85 комментариев
null