Tor Metrics
Как вообще можно считать пользователей в анонимной сети?
We actually don't count users, but we count requests to the directories that clients make periodically to update their list of relays and estimate number of users indirectly from there.
Все управляющие серверы сообщают число запросов?
Нет. Мы смотрим, какая часть управляющих серверов сообщила данные, а потом экстраполируем на всё сообщество и оцениваем общий результат.
Как вы получаете статистику пользователей из запросов к управляющим серверам?
Мы исходим из предположения, что средний клиент делает 10 подобных запросов ежедневно. Клиент Tor, который работает круглые сутки семь дней в неделю, совершает примерно 15 запросов ежедневно. Не все клиенты работают 24/7. Поэтому мы считаем среднее число запросов равным 10. Мы просто делим запросы на 10 и считаем результат количеством пользователей. Есть и другой подход: мы предполагаем, что каждый запрос относится к клиенту, который находится онлайн 1/10 часть суток, то есть, 2 часа 24 минуты.
Получается, это точное число пользователей в день, среднее число подключившихся... или что?
Среднее число одновременно подключившихся пользователей. Рассчитывается из данных, собранных в течение дня. Мы не можем делать утверждения о точном числе пользователей.
А есть более подробная статистика? Например, количество пользователей в час?
Нет. Узлы, которые сообщают эту статистику, сортируют запросы по странам происхождения за период в 24 часа. Если бы мы собирали статистику о количестве пользователей в час, это были бы слишком точные данные: мы рисковали бы раскрыть наших пользователей.
Это клиенты или пользователи Tor? Что если одним клиентом пользуется несколько людей?
Тогда мы считаем этих пользователей как одного. На самом деле, мы считаем клиентов, но большинству людей проще говорить и думать о пользователях. Поэтому мы говорим "пользователи", а не "клиенты".
Что если пользователь запускает Tor с ноутбука и меняет свой IP-адрес несколько раз в день? Вы считаете этого человека снова?
Нет, поскольку такой пользователь обновляет свой список узлов так же часто, как и пользователь, который не меняет IP-адрес в течение дня.
Откуда вы знаете, из каких стран приходят пользователи?
Управляющие серверы преобразуют IP-адреса в коды стран. Эта информация собирается в обобщённом виде. (Одна из причин, по которой в комплект Tor включена база GeoIP).
Почему так мало пользователей мостов не используют протокол OR по умолчанию или используют IPv6?
Пока очень небольшое число мостов сообщает данные о транспортах или IP-версиях. По умолчанию мы считаем, что используются протокол OR и IPv4. Чем больше мостов будет сообщать эти данные, тем аккуратнее будут значения.
Почему графики заканчиваются за два дня до сегодняшней даты?
Узлы и мосты сообщают некоторые данные с промежутками в 24 часа. Эти промежутки могут сменяться в любое время суток.
По окончании такого промежутка мосту может понадобиться до 18 часов, чтобы сообщить данные.
Мы отбрасываем два последних дня сознательно. Мы не хотим, чтобы в последних значениях "обнаружился" новый тренд, который фактически отражает лишь погрешность алгоритма.
Я вижу, что данные по последней точке за несколько часов изменились. Как так?
Причина в следующем. Мы публикуем статистику пользователей, когда уверены, что она уже существенно не изменится. Но всегда остается вероятность, что вскоре после публикации управляющий сервер сообщит новые данные, и это повлияет на статистику.
Почему нет данных за период до сентября 2011 года?
У нас есть архивы до 2011 года, но в них нет достаточных данных, чтобы оценить число пользователей. Если вам нужна более подробная информация, пожалуйста, загляните в этот архив:
Почему вы считаете, что ваш подход позволяет достоверно оценивать число пользователей?
Для наших непосредственных пользователей мы включаем данные всех управляющих серверов, чего не было в прошлом. Мы также используем фрагменты данных, где содержатся только байты, отвечающие на запросы управляющих серверов. Это дает более точный результат, чем общие данные.
В чем преимущество нового подхода над старым, когда речь идет о пользователях мостов?
Это целая история. Мы написали 13-страничный технический отчет, в котором объясняется, почему мы отказались от прежнего подхода.
tl;dr: раньше мы измеряли неправильные вещи, а сейчас правильные.
Что за красные и синие отметки рядом с возможными инцидентами цензуры?
У нас есть система определения цензуры на основе выявления аномалий. Эта система следит за числом пользователей на протяжении нескольких дней и предсказывает, сколько их будет в следующие дни. Если реальное число оказывается больше или меньше, это может сигнализировать об инциденте или о начале масштабной цензуры. Подробности можно прочесть в нашем техническом отчете.