Métricas do Tor
Como é possível contar usuários em uma rede de anonimato?
We actually don't count users, but we count requests to the directories that clients make periodically to update their list of relays and estimate number of users indirectly from there.
Todos os diretórios reportam esses números de solicitação de diretório?
Não, mas nós podemos ver qual fração desses diretórios reportam e então nós podemos extrapolar o número para o total da rede.
Como vocês chegam no número de usuários a partir das solicitações de diretório?
Colocamos como hipótese de que um cliente médio faz 10 solicitações desse tipo por dia. Um cliente tor que está conectado 24/7 faz cerca de 15 pedidos por dia, mas nem todos os clientes estão conectados 24/7, então escolhemos o número 10 para a média de um cliente. Nós simplesmente dividimos as solicitações de diretórios por 10 e consideramos o resultado como o número de usuários. Outra maneira de ver isso, é que assumimos que cada requisição representa um cliente que fica online por um décimo de dia, portanto 2 horas e 24 minutos.
Então, existem esses usuários distintos por dia, número médio de usuários conectados durante o dia ou oquê?
Número médio de usuários concomitantes, estimados através da informação coletada durante o dia. Nós não podemos dizer quantos usuários distintos existem.
Existem números mais detalhados disponíveis, como por exemplo, o número de usuários por hora?
Não, os retransmissores que reportam essas estatísticas agregam as solicitações por país de origem e a cada período de 24 horas. As estatísticas que nós deveríamos coletar para obter o número de usuários por hora precisariam ser muito detalhadas e poderiam por usuários em risco.
Estes são clientes ou usuários do Tor? E se houver mais de um usuário por trás de um cliente Tor?
Então nós contamos esses usuários como um. Nós realmente contamos clientes, mas é mais intuitivo para a maioria das pessoas pensar em usuários, é por isso que nós dizemos usuários e não clientes.
E se um usuário executar o Tor em um laptop e mudar seu endereço IP algumas vezes por dia? Você não conta mais vezes esse usuário?
Não, porque aquele usuário atualiza sua lista de retransmissores com a mesma frequência que um usuário que não muda seu endereço de IP durante o dia.
Como vocês sabem de qual países os usuários vêm?
Os diretórios determinam os endereços IP para os códigos de país e reportam esses números de maneira agregada. Esta é uma das razões por que o Tor vem com um banco de dados GeoIP.
Por que há tão poucos usuários pontes que não estão usando o protocolo OR padrão ou que estão usando IPv6?
Ainda há muito poucas pontes que reportam informação sobre transporte ou versões IP e por padrão nós consideramos solicitações para usar o padrão ou o protocolo e IPv4. Assim que mais pontes reportem essa informação, os números irão se tornar mais precisos.
Por que os gráficos acabam 2 dias no passado e não hoje?
Retransmissores e pontes reportam uma parte dos dados em intervalos de 24 horas o que pode acabar em qualquer parte do dia.
E após esse intervalo acabar retransmissores e pontes podem levar outras 18 horas até reportarem os dados.
Nós descartamos os últimos dois dias dos gráficos, porque nós queremos evitar que o ultimo ponto de dados em um gráfico indique uma mudança de tendência recente, o que de fato é apenas um artefato do algoritmo.
Mas eu observei que o último ponto de informação foi alto/baixo um pouco desde que I olhei por último algumas horas atrás. O porquê disto?
O motivo é que nós publicamos os números de usuários uma vez que temos confiança suficiente que eles não irão mudar significantemente mais. Porém é sempre possível que um diretório reporte dados algumas horas depois que nós ficamos confiantes o suficiente, os quais então alteram levemente o gráfico.
Por que não tem nenhum número disponível antes de Setembro de 2011?
Nós temos arquivos descritores anteriores àquela época, porém esses descritores não contém toda a informação, nós costumávamos estimar os números de usuários. Por favor encontre o seguinte arquivo tarball para mais detalhes:
Por que vocês acreditam que a atual abordagem para estimar o número de usuários é mais precisa?
Para usuários diretos, nós incluímos todos os diretórios o que nós não fazíamos na antiga abordagem. Nós também usamos históricos que apenas contém bytes escritos para responder solicitações de diretório, o que é mais preciso do que usar o histórico de bytes genérico.
E qual a vantagem da abordagem atual sobre a antiga quando se trate de usuários de pontes?
Ah, isto é uma história totalmente diferente. Nós escrevemos um relatório técnico longo de 13 páginas explicando as razões para desativar a antiga abordagem.
tl;dr: na antiga abordagem nós mediamos a coisa errada e agora nós medimos a coisa certa.
O que são estes pontos vermelhos e azuis indicando possíveis eventos de censura?
Nós executamos um sistema de detecção de censura baseado em anomalias que procura por números de usuários estimados por uma séries de dias e prevê o número de usuários nos próximos dias. Se o número real é maior ou menos isto pode indiar um possível evento de censura ou o término de uma censura. Para mais detalhes, veja nosso relatório técnico.