Tor Metriken
Wie ist es überhaupt möglich, Benutzer in einem Anonymitätsnetz zu zählen?
Wir zählen eigentlich keine Benutzer, aber wir zählen die Anfragen an die Verzeichnisse, die die Clients regelmäßig stellen, um ihre Liste der Relays zu aktualisieren und schätzen die Anzahl der Benutzer indirekt von dort aus.
Melden alle Verzeichnisse diese Verzeichnisanforderungsnummern?
Nein, aber wir können sehen, welcher Anteil der Verzeichnisse sie gemeldet hat, und dann können wir die Gesamtzahl im Netzwerk hochrechnen.
Wie kommt ihr von diesen Verzeichnisanfragen zu Benutzerzahlen?
Wir gehen davon aus, dass der durchschnittliche Client 10 solcher Anfragen pro Tag stellt. Wir gehen davon aus, dass ein durchschnittlicher Client 10 solcher Anfragen pro Tag stellt. Ein Tor-Client, der rund um die Uhr verbunden ist, stellt etwa 15 Anfragen pro Tag, aber nicht alle Clients sind rund um die Uhr verbunden, daher haben wir die Zahl 10 für den durchschnittlichen Client gewählt. Wir teilen die Verzeichnisanfragen einfach durch 10 und betrachten das Ergebnis als die Anzahl der Benutzer. Eine andere Sichtweise ist, dass wir davon ausgehen, dass jede Anfrage einen Client darstellt, der ein Zehntel eines Tages, also 2 Stunden und 24 Minuten, online bleibt.
Handelt es sich also um unterschiedliche Benutzer pro Tag, um die durchschnittliche Anzahl der Benutzer, die im Laufe des Tages verbunden sind, oder was?
Durchschnittliche Anzahl der gleichzeitigen Benutzer, geschätzt anhand der über einen Tag gesammelten Daten. Wir können nicht sagen, wie viele verschiedene Benutzer es gibt.
Sind auch feinere Zahlen verfügbar, z.B. über die Anzahl der Benutzer pro Stunde?
Nein, die Relays, die diese Statistiken melden, fassen die Anfragen nach Herkunftsland und über einen Zeitraum von 24 Stunden zusammen. Die Statistiken, die wir für die Anzahl der Benutzer pro Stunde sammeln müssten, wären zu detailliert und könnten die Benutzer einem Risiko aussetzen.
Sind dies Tor-Clients oder Benutzer? Was ist, wenn mehr als ein Benutzer hinter einem Tor-Client steht?
Dann zählen wir diese Benutzer als einen. Wir zählen wirklich Clients, aber es ist für die meisten Leute intuitiver, an Benutzer zu denken, deshalb sagen wir Benutzer und nicht Clients.
Was passiert, wenn ein Benutzer Tor auf einem Laptop laufen lässt und seine IP-Adresse ein paar Mal am Tag ändert? Zählt ihr diesen Benutzer nicht zu viel?
Nein, denn dieser Benutzer aktualisiert seine Liste der Relays so oft wie ein Benutzer, der seine IP-Adresse im Laufe des Tages nicht ändert.
Woher wisst ihr, aus welchen Ländern die Benutzer kommen?
Die Verzeichnisse lösen IP-Adressen in Ländercodes auf und melden diese Zahlen in zusammengefasster Form. Dies ist einer der Gründe, warum tor mit einer GeoIP-Datenbank ausgeliefert wird.
Warum gibt es so wenige Brückennutzer, die nicht das Standard-OR-Protokoll oder IPv6 verwenden?
Nur sehr wenige Brücken melden bisher Daten über Transporte oder IP-Versionen, und standardmäßig berücksichtigen wir Anfragen zur Verwendung des Standard-OR-Protokolls und IPv4. Sobald weitere Brücken diese Daten melden, werden die Zahlen genauer werden.
Warum enden die Diagramme 2 Tage in der Vergangenheit und nicht heute?
Relays und Brücken melden einen Teil der Daten in 24-Stunden-Intervallen, die zu jeder Tageszeit enden können.
Und nachdem ein solches Intervall vorbei ist, könnten Relays und Brücken weitere 18 Stunden benötigen, um die Daten zu melden.
Wir schneiden die letzten beiden Tage aus den Diagrammen heraus, weil wir vermeiden wollen, dass der letzte Datenpunkt in einem Diagramm auf eine kürzliche Trendänderung hinweist, die in Wirklichkeit nur ein künstliches Produkt des Algorithmus ist.
Aber ich habe bemerkt, dass der letzte Datenpunkt seit meinem letzten Blick vor ein paar Stunden ein wenig nach oben/unten gegangen ist. Warum ist das so?
Der Grund dafür ist, dass wir Benutzerzahlen veröffentlichen, sobald wir sicher genug sind, dass sie sich nicht mehr wesentlich ändern werden. Aber es ist immer möglich, dass ein Verzeichnis einige Stunden, nachdem wir zuversichtlich genug waren, Daten meldet, die dann aber die Diagramme leicht verändert haben.
Warum sind keine Zahlen vor September 2011 verfügbar?
Wir haben zwar Deskriptorenarchive aus der Zeit davor, aber diese Deskriptoren enthielten nicht alle Daten, die wir zur Schätzung der Nutzerzahlen verwenden. Weitere Einzelheiten entnehmen Sie bitte dem folgenden Tarball:
Warum glaubt ihr, dass die derzeitige Herangehensweise zur Schätzung der Nutzerzahlen genauer ist?
Für direkte Benutzer schließen wir alle Verzeichnisse ein, die wir in der alten Herangehensweise nicht gemacht haben. Wir verwenden auch Historien, die nur Bytes enthalten, die zur Beantwortung von Verzeichnisanfragen geschrieben wurden, was präziser ist als die Verwendung allgemeiner Byte-Historien.
Und wie sieht es mit dem Vorteil der aktuellen Herangehensweise gegenüber der alten aus, wenn es um Brückennutzer geht?
Oh, das ist eine ganz andere Geschichte. Wir haben einen 13 Seiten langen technischen Bericht verfasst, in dem wir die Gründe für die Abschaffung der alten Herangehensweise erläutern.
tl;dr: In der alten Herangehensweise haben wir das Falsche gemessen, und jetzt messen wir das Richtige.
Was sind diese roten und blauen Punkte, die auf mögliche Zensurereignisse hinweisen?
Wir betreiben ein Anomalie-basiertes Zensurerkennungssystem, das die geschätzte Benutzerzahl über eine Reihe von Tagen betrachtet und die Benutzerzahl in den nächsten Tagen vorhersagt. Wenn die tatsächliche Zahl höher oder niedriger ist, könnte dies auf ein mögliches Zensurereignis oder die Freigabe der Zensur hinweisen. Weitere Einzelheiten findest du in unserem technischen Bericht.