Как определить количество ботов в Твиттере Статьи редакции
В последнее время пользователи русскоязычного Твиттера часто хвастаются низким количеством ботов среди своих читателей, что определяется при помощи специальных сервисов. Технический директор TJournal Илья Чекальский в своей колонке объясняет, почему подобным сервисам нельзя доверять.
Многие микроблогеры без устали выкладывают результаты анализа своих аккаунтов специальными сервисами, ссылаясь тем самым на якобы чистоту аудитории. Подобными сервисами пользуются и те, кого как раз обычно подозревают в покупке части фолловеров.
Проверялка ботов - 11% of @korobkov Followers are Fake! Check another Profile with Socialbakers!sbks.co/ff/
— Коробков-Землянский (@korobkov) 3 апреля 2013 г.
@nikitaodintsov @sergeiminaevУ меня тоже 7%. ))) Чёт обвинителей моих не видно! )))) twitter.com/MishaSamarsky/…
— Михаил Самарский(@MishaSamarsky) 3 апреля 2013 г.
Вот только при более внимательном рассмотрении механизмов работы подобных сервисов становится понятно, что их цифры не могут претендовать на объективность.
1. Fake Followers от SocialBakers

Если заглянуть в раздел «Методология» на этом сервисе, то можно обнаружить, что он анализирует только 2 000 фолловеров. Для большинства твиттерян этого, конечно, будет достаточно, а вот для выявления настоящих ботоводов как раз слишком мало.
Сервис Fakefollowers определяет пустые, фэйковые аккаунты по следующим критериям:
- Аккаунт не имеет ни одного фолловера и следит менее, чем за 50 другими аккаунтами. Однако ни для кого не секрет, что сейчас даже в самых примитивных бот-сетях все "дружатся" друг с другом, а размер таких сетей в среднем — несколько тысяч аккаунтов.
- Более 30% твитов содержат спам-фразы вроде «diet», «make money», и «work from home». Этот параметр для России неактуален, ну и лично я бы даже за две таких фразы объявлял ботом.
- Одни и те же твиты повторяются трижды и более, даже если это разные аккаунты. Уже неплохо, но создатели ботов стараются такого не допускать — чаще всего они просто копируют твиты у других пользователей и никогда их не повторяют.
- Более 90% твитов пользователя — ретвиты. Моя же практика показывает, что больше 50% — уже подозрительно.
- Более 90% твитов содержат ссылки, и аккаунты фолловят в семь и более раз больше людей, чем имеют фолловеров. Опять же, наша практика показывает, что ни в одном нормальном аккаунте не бывает больше 50% ссылок. Кроме случаев, когда пользователь настроил кросспостинг из какой-либо другой сети. Зачем в таком случае ещё фолловеров проверять — остается загадкой. Особенно с учётом того, что в бот-сетях у всех ботов соотношение примерно один к одному.
- Аккаунт пустой. Последний раз видел такие ещё и без аватарок году этак в 2010.
- Аккаунт старше двух месяцев и не имеет своей аватарки.
Получается, данный сервис не учитывает даже параметр listed и использует очень мягкие фильтры, которые большинство современных ботов легко проходят. Несмотря на то, что создатели честно предупреждают о точности определения примерно в 10-15%, многие продолжают представлять его данные как «объективное исследование».
2. Status People Fake Followers Check

Данный сервис и вовсе обладает крайне примитивной методологией, получая информацию только о тысяче фолловеров. А качество аудитории пытается определить по соотношению количества фолловеров к количеству читаемых аккаунтов и по абсолютному количеству твитов. Иными словами: мало твитов и много фолловишь — бот. Все современные боты с легкостью проходят данный тест. Вот уж кого байтами не корми, дай написать новый сворованный у живого человека твит.
3. Twitteraudit (Сервис)

Сервис запрашивает информацию по 5 000 случайных фолловеров. Сомневаюсь, что случайных — судя по всему, исследует только последних фолловеров.
Оценка базируется на количестве твитов, дате последнего обновления и соотношению количества фолловеров к количеству читаемых аккаунтов. В общем, подход такой же абсурдный, как и у предыдущих сервисов.
Невозможность создания объективных алгоритмов по определению ботов обусловлена ограничениями Твиттера. В отличие от, например, Instagram или ВКонтакте, здесь невозможно получить полные данные обо всех твитах пользователя. Как и нельзя оперативно получить информацию о фолловерах (и тем более их постах). Администрация Твиттера контролирует не только глубину просматриваемых данных, но и устанавливает жесткие лимиты на частоту запросов к их API.
Получается, ни один из существующих сервисов не даёт реальной картины. И сколько-нибудь всерьёз воспринимать результаты их анализа нельзя, особенно, если речь идёт о фолловерах популярного пользователя. В таком случае оценка подобных сервисов будет примерным минимумом фэйковых аккаунтов.
На мой взгляд, сервис, приближенный к объективному определению ботов, должен учитывать гораздо большее количество факторов:
- Значение параметра listed;
- Количество ссылок среди последних записей;
- Относительное количество упоминаний других пользователей и ретвитов;
- Относительное количество твитов с упоминаниями одновременно более трёх аккаунтов;
- Относительное количество твитов с хэштегами, особенно популярными и вышедшими в тренды;
- Определять, что написанные твиты уже были написаны кем-то другим слово в слово;
- Определять изолированность читаемых и читающих аккаунт пользователей от других групп — очень редко группа человек читает только друг друга, при этом постоянно друг с другом переписывается и отправляют друг другу много ссылок;
- Анализировать уникальность аватарки с помощью сервисов вроде tinyeye — боты зачастую ставят себе на аватарки абстрактные фотографии или фото известных людей;
Надеюсь, я когда-нибудь напишу такой сервис,
Илья Чекальский,
специально для TJournal
Проверил себя: Fake followers показал в списке ботов (Fake followers list) моих друзей, тех с кем я лично знаком и активно общаюсь!!! )) Бред.
Илья, давай напишем!
Согласен. Автор молодец. Но вряд ли он тоже напишет что-то путное. при нынешних обстоятельствах.
- Значение параметра listed;
А что там учитывать?
- Количество ссылок среди последних записей;
А если человек активно пользуется Instaram-ом и пр. сервисами?
- Относительное количество упоминаний других пользователей и ретвитов;
Я, например, в последнее время мало сам пишу: работа, учеба, девушка. Изредка опубликую фото из Molo.me (аналог Instaram). Чаще отвечаю на твиты друзей, общаюсь, ретвичу забавные и красивые.
Так что пара приведенных пунктов тоже под сомнением.
@AlexWayfer Не все бот-сети настолько продуманы, что добавляют своих членов друг другу в листы, следовательно, при 10 000 фолловерах параметр listed не может быть меньше 100, например.
Если человек репостит в твиттер только свои фотографии из инстаграма и ни с кем не общается, то он,в принципе, недалеко ушёл от бота.
Ну так это и здорово. Как раз можно определить, что вы публикуете не просто ссылки на непонятные сайты, а фотографии, видео.
Я не думаю, что за нарушение каждого пункта стоит объявлять ботом, лучше за каждый пункт добавлять несколько очков и только если сумма всех баллов превысит определенный порог, тогда вешать позорный ярлык :-)
"Если человек репостит в твиттер только свои фотографии из инстаграма и ни с кем не общается, то он,в принципе, недалеко ушёл от бота."
Не путайте негативную активность с бессмысленной :-)
Про ранжирование - это понятно.
За статью спасибо.
Mr. Azfalt, а что такой сервис будет делать?
А зачем пытаться находить ботов? Можно просто написать алгоритм поиска хороших аккаунтов по заданным критериям, которые нужны для маркетингового исследования, например, а затем вычесть их из общего числа фолловеров и получить количество не ботов, а аккаунтов не дающего никакого эффекта для ленты.
Насколько быстро и объективно это будет работать учитывая ограничения в API(о которых в статье уже сказано)
Нужно изгнать ботов из твиттера!
А нельзя придумать сервис, который бы ботов банил? А то какой смысл от того что вы человеку ткнете или расскажете широкой общественности о том, что его твиттер "накачан"? Подобный сервис не спасет от спама в трендах, которые читать стало невозможно из-за того, что эти самые боты пишут, что им хозяин скажет. Зачастую не по теме хэштега. Я перешел на мировые тренды, но и туда периодически заскакивают хэштеги, которые продвигают наши ботоводы.
Безумно полезная статья! Спасибо.
Для начала нужен сервис "I'm a bot?"