Tor Metrics

We actually don't count users, but we count requests to the directories that clients make periodically to update their list of relays and estimate number of users indirectly from there.

Нет. Мы смотрим, какая часть управляющих серверов сообщила данные, а потом экстраполируем на всё сообщество и оцениваем общий результат.

Мы исходим из предположения, что средний клиент делает 10 подобных запросов ежедневно. Клиент Tor, который работает круглые сутки семь дней в неделю, совершает примерно 15 запросов ежедневно. Не все клиенты работают 24/7. Поэтому мы считаем среднее число запросов равным 10. Мы просто делим запросы на 10 и считаем результат количеством пользователей. Есть и другой подход: мы предполагаем, что каждый запрос относится к клиенту, который находится онлайн 1/10 часть суток, то есть, 2 часа 24 минуты.

Среднее число одновременно подключившихся пользователей. Рассчитывается из данных, собранных в течение дня. Мы не можем делать утверждения о точном числе пользователей.

Нет. Узлы, которые сообщают эту статистику, сортируют запросы по странам происхождения за период в 24 часа. Если бы мы собирали статистику о количестве пользователей в час, это были бы слишком точные данные: мы рисковали бы раскрыть наших пользователей.

Тогда мы считаем этих пользователей как одного. На самом деле, мы считаем клиентов, но большинству людей проще говорить и думать о пользователях. Поэтому мы говорим "пользователи", а не "клиенты".

Нет, поскольку такой пользователь обновляет свой список узлов так же часто, как и пользователь, который не меняет IP-адрес в течение дня.

Управляющие серверы преобразуют IP-адреса в коды стран. Эта информация собирается в обобщённом виде. (Одна из причин, по которой в комплект Tor включена база GeoIP).

Пока очень небольшое число мостов сообщает данные о транспортах или IP-версиях. По умолчанию мы считаем, что используются протокол OR и IPv4. Чем больше мостов будет сообщать эти данные, тем аккуратнее будут значения.

Узлы и мосты сообщают некоторые данные с промежутками в 24 часа. Эти промежутки могут сменяться в любое время суток.
По окончании такого промежутка мосту может понадобиться до 18 часов, чтобы сообщить данные.
Мы отбрасываем два последних дня сознательно. Мы не хотим, чтобы в последних значениях "обнаружился" новый тренд, который фактически отражает лишь погрешность алгоритма.

Причина в следующем. Мы публикуем статистику пользователей, когда уверены, что она уже существенно не изменится. Но всегда остается вероятность, что вскоре после публикации управляющий сервер сообщит новые данные, и это повлияет на статистику.

У нас есть архивы до 2011 года, но в них нет достаточных данных, чтобы оценить число пользователей. Если вам нужна более подробная информация, пожалуйста, загляните в этот архив:

Tarball

Для наших непосредственных пользователей мы включаем данные всех управляющих серверов, чего не было в прошлом. Мы также используем фрагменты данных, где содержатся только байты, отвечающие на запросы управляющих серверов. Это дает более точный результат, чем общие данные.

Это целая история. Мы написали 13-страничный технический отчет, в котором объясняется, почему мы отказались от прежнего подхода.
tl;dr: раньше мы измеряли неправильные вещи, а сейчас правильные.

У нас есть система определения цензуры на основе выявления аномалий. Эта система следит за числом пользователей на протяжении нескольких дней и предсказывает, сколько их будет в следующие дни. Если реальное число оказывается больше или меньше, это может сигнализировать об инциденте или о начале масштабной цензуры. Подробности можно прочесть в нашем техническом отчете.