Wenn Online-Inhalte verschwinden: 38 % der Webseiten, die im Jahr 2013 existierten, sind ein Jahrzehnt später nicht mehr zugänglich

Ikonoklast, Federal Bananarepublic Of Germoney, Samstag, 02.11.2024, 15:47 (vor 91 Tagen) @ Ikonoklast2199 Views

Wenn Online-Inhalte verschwinden
38 % der Webseiten, die im Jahr 2013 existierten, sind ein Jahrzehnt später nicht mehr zugänglich

Von Athena Chapekis,Samuel Bestvater,Emma Remy undGonzalo Rivero

Das Internet ist ein unvorstellbar großer Fundus des modernen Lebens, mit Hunderten von Milliarden indexierten Webseiten. Aber selbst wenn Nutzer auf der ganzen Welt auf das Internet angewiesen sind, um auf Bücher, Bilder, Nachrichtenartikel und andere Ressourcen zuzugreifen, verschwinden diese Inhalte manchmal aus dem Blickfeld.

Eine neue Analyse des Pew Research Center zeigt, wie flüchtig Online-Inhalte tatsächlich sind:

- Ein Viertel aller Webseiten, die zwischen 2013 und 2023 irgendwann einmal existierten, sind ab Oktober 2023 nicht mehr zugänglich. In den meisten Fällen liegt dies daran, dass eine einzelne Seite auf einer ansonsten funktionierenden Website gelöscht oder entfernt wurde.

- Bei älteren Inhalten ist dieser Trend noch deutlicher. Etwa 38 % der Webseiten, die im Jahr 2013 existierten, sind heute nicht mehr verfügbar, verglichen mit 8 % der Seiten, die im Jahr 2023 existierten.

[image]

Dieser „digitale Verfall“ findet in vielen verschiedenen Online-Bereichen statt. Wir haben die Links untersucht, die auf Regierungs- und Nachrichten-Websites sowie im Abschnitt „Referenzen“ von Wikipedia-Seiten im Frühjahr 2023 erscheinen. Diese Analyse ergab Folgendes:

- 23 % der Nachrichten-Webseiten enthalten mindestens einen defekten Link, ebenso wie 21 % der Webseiten von Regierungsseiten. Nachrichtenseiten mit hohem und niedrigem Besucheraufkommen sind etwa gleich häufig von defekten Links betroffen. Webseiten von Kommunalverwaltungen (die zu Stadtverwaltungen gehören) sind besonders häufig von defekten Links betroffen.

- 54 % der Wikipedia-Seiten enthalten mindestens einen Link im Abschnitt „Referenzen“, der auf eine Seite verweist, die nicht mehr existiert.

Um zu sehen, wie sich der digitale Verfall in den sozialen Medien auswirkt, haben wir im Frühjahr 2023 eine Echtzeit-Stichprobe von Tweets auf der Social-Media-Plattform X (damals noch Twitter) gesammelt und diese drei Monate lang verfolgt. Das haben wir herausgefunden:

- Fast jeder fünfte Tweet ist nur wenige Monate nach seiner Veröffentlichung nicht mehr öffentlich auf der Website sichtbar. In 60 % dieser Fälle wurde das Konto, das den Tweet ursprünglich gepostet hatte, privatisiert, gesperrt oder ganz gelöscht. In den anderen 40 % löschte der Kontoinhaber den einzelnen Tweet, aber das Konto selbst blieb bestehen.

Hier sind einige der Ergebnisse unserer Analyse des digitalen Verfalls in verschiedenen Online-Räumen.

Webseiten aus dem letzten Jahrzehnt

Für diesen Teil unserer Analyse haben wir eine Zufallsstichprobe von knapp 1 Million Webseiten aus den Archiven von Common Crawl entnommen, einem Internet-Archivierungsdienst, der in regelmäßigen Abständen Momentaufnahmen des Internets zu verschiedenen Zeitpunkten sammelt. Wir haben von 2013 bis 2023 jedes Jahr eine Stichprobe der von Common Crawl gesammelten Seiten genommen (etwa 90 000 Seiten pro Jahr) und überprüft, ob diese Seiten heute noch existieren.

Wir fanden heraus, dass 25 % aller von 2013 bis 2023 gesammelten Seiten im Oktober 2023 nicht mehr zugänglich waren. Diese Zahl setzt sich aus zwei verschiedenen Arten von defekten Seiten zusammen: 16 % der Seiten sind einzeln unzugänglich, stammen aber von einer ansonsten funktionierenden Root-Domäne; die anderen 9 % sind unzugänglich, weil ihre gesamte Root-Domäne nicht mehr funktioniert.

Es überrascht nicht, dass die älteren Snapshots in unserer Sammlung den größten Anteil an unzugänglichen Links aufweisen. Von den Seiten aus dem Snapshot 2013 waren 2023 38 % nicht mehr zugänglich. Aber selbst bei den Seiten aus dem Snapshot von 2021 war nur zwei Jahre später etwa jede fünfte Seite nicht mehr zugänglich.

Links auf Regierungswebseiten

Mit dem Common Crawl March/April 2023 haben wir eine Stichprobe von etwa 500.000 Seiten von Regierungswebsites genommen, darunter eine Mischung aus verschiedenen Regierungsebenen (Bund, Länder, Kommunen und andere). Wir haben jeden Link auf jeder Seite gefunden und sind einer zufälligen Auswahl dieser Links bis zu ihrem Ziel gefolgt, um zu sehen, ob die Seiten, auf die sie verweisen, noch existieren.

Auf den von uns untersuchten Regierungswebsites gab es insgesamt 42 Millionen Links. Die überwiegende Mehrheit dieser Links (86 %) waren intern, d. h. sie verweisen auf eine andere Seite auf derselben Website. Ein Beispiel für einen internen Link wäre eine Erläuterung auf der IRS-Website, die auf andere Dokumente oder Formulare auf der IRS-Website verweist.

Etwa drei Viertel der von uns untersuchten Regierungswebseiten enthielten mindestens einen On-Page-Link. Die typische Seite (Median) enthält 50 Links, aber viele Seiten enthalten weit mehr. Eine Seite im 90. Perzentil enthält 190 Links, und eine Seite im 99. Perzentil (d. h. die obersten 1 % der Seiten nach Anzahl der Links) hat 740 Links.

[image]

Weitere Fakten über Links zu Regierungswebseiten:

- Die überwiegende Mehrheit führt zu sicheren HTTP-Seiten (und hat eine URL, die mit „https://“ beginnt).

- 6 % verweisen auf eine statische Datei, z. B. ein PDF-Dokument.

- 16 % leiten jetzt zu einer anderen URL weiter als der, auf die sie ursprünglich verweisen.

Als wir diese Links verfolgten, stellten wir fest, dass 6 % auf Seiten verweisen, die nicht mehr zugänglich sind. Ein ähnlicher Anteil der internen und externen Links ist nicht mehr funktionsfähig.

Insgesamt enthielten 21 % aller von uns untersuchten Regierungswebseiten mindestens einen defekten Link. Auf allen untersuchten Verwaltungsebenen gab es auf mindestens 14 % der Seiten defekte Links, wobei die Seiten der Stadtverwaltung den höchsten Anteil an defekten Links aufwiesen.

Links auf Nachrichten-Websites

Für diese Analyse haben wir 500.000 Seiten von 2.063 Websites ausgewählt, die von der Publikumsmetrikfirma comScore als „Nachrichten/Information“ eingestuft werden. Die Seiten wurden aus der Common Crawl Momentaufnahme des Internets vom März/April 2023 zusammengestellt.

Über alle untersuchten Nachrichtenseiten hinweg enthält diese Sammlung mehr als 14 Millionen Links, die auf eine externe Website verweisen.1 Etwa 94 % dieser Seiten enthalten mindestens einen nach außen gerichteten Link. Der Median der Seiten enthält 20 Links, und die 10 % der Seiten mit den meisten Links enthalten 56 Links.

Wie bei Regierungswebsites geht die große Mehrheit dieser Links zu sicheren HTTP-Seiten (mit einer URL, die mit „https://“ beginnt). Etwa 12 % der Links auf diesen Nachrichtenseiten verweisen auf eine statische Datei, beispielsweise ein PDF-Dokument. Und 32 % der Links auf Nachrichtenseiten leiteten auf eine andere URL weiter als die, auf die sie ursprünglich zeigten - etwas weniger als die 39 % der externen Links auf Regierungsseiten, die weiterleiteten.

[image]

Als wir diese Links bis zu ihrem Ziel verfolgten, stellten wir fest, dass 5 % aller Links auf Nachrichtenseiten nicht mehr zugänglich sind. Und 23 % aller von uns untersuchten Seiten enthielten mindestens einen defekten Link.

Defekte Links sind auf den am meisten besuchten Nachrichten-Websites ebenso häufig wie auf den am wenigsten besuchten Seiten. Etwa 25 % der Seiten auf Nachrichten-Websites, die zu den 20 % der meistbesuchten Websites gehören, enthalten mindestens einen defekten Link. Das ist fast identisch mit den 26 % der Seiten in den unteren 20 % der Besucherzahlen.
Referenzlinks auf Wikipedia

Für diese Analyse haben wir eine Zufallsstichprobe von 50.000 englischsprachigen Wikipedia-Seiten ausgewählt und die Links in ihrem Abschnitt „Referenzen“ untersucht. Die überwiegende Mehrheit dieser Seiten (82 %) enthält mindestens einen Verweislink, d. h. einen Link, der den Leser zu einer anderen Webseite als Wikipedia selbst führt.

Insgesamt gibt es etwas mehr als 1 Million Verweislinks auf allen von uns erfassten Seiten.
Die typische Seite hat vier Verweislinks.

Die Analyse zeigt, dass 11 % aller auf Wikipedia verlinkten Verweise nicht mehr zugänglich sind. Auf etwa 2 % der Quellenseiten, die Verweislinks enthalten, war jeder Link auf der Seite defekt oder anderweitig unzugänglich, während weitere 53 % der Seiten mindestens einen defekten Link enthielten.

Beiträge auf Twitter

Für diese Analyse haben wir fast 5 Millionen Tweets gesammelt, die vom 8. März bis zum 27. April 2023 auf der Social-Media-Plattform X, damals noch Twitter, veröffentlicht wurden. Dazu nutzten wir die Streaming-API von Twitter und sammelten alle 30 Minuten 3 000 öffentliche Tweets in Echtzeit. So erhielten wir eine repräsentative Stichprobe aller Tweets, die in diesem Zeitraum auf der Plattform veröffentlicht wurden. Wir beobachteten diese Tweets bis zum 15. Juni 2023 und überprüften jeden Tag, ob sie noch auf der Website verfügbar waren oder nicht.

Am Ende des Beobachtungszeitraums stellten wir fest, dass 18 % der Tweets aus unserem ursprünglichen Erfassungsfenster nicht mehr auf der Website öffentlich sichtbar waren. In den meisten Fällen war dies darauf zurückzuführen, dass das Konto, das den Tweet ursprünglich gepostet hatte, privatisiert, gesperrt oder ganz gelöscht wurde. Bei den übrigen Tweets war das Konto, das den Tweet gepostet hatte, zwar noch auf der Website sichtbar, aber der einzelne Tweet war gelöscht worden.

[image]

Die Wahrscheinlichkeit, dass Tweets im Laufe des Erhebungszeitraums gelöscht oder entfernt wurden, war besonders hoch, wenn sie:

- Sie waren in bestimmten Sprachen verfasst. Fast die Hälfte aller von uns erfassten türkischsprachigen Tweets - und ein etwas geringerer Anteil der auf Arabisch verfassten Tweets - waren am Ende des Erfassungszeitraums nicht mehr verfügbar.

- Sie wurden von Konten gepostet, die die Standardprofileinstellungen der Website verwenden. Mehr als die Hälfte der Tweets von Konten, die das Standardprofilbild verwenden, waren am Ende des Beobachtungszeitraums nicht mehr verfügbar, ebenso wie mehr als ein Drittel der Tweets von Konten mit einem Standard-Biofeld. Tweets von diesen Konten verschwinden in der Regel, weil das gesamte Konto gelöscht oder privat gemacht wurde, im Gegensatz zu einzelnen Tweets, die gelöscht wurden.

- Von nicht verifizierten Konten gepostet.

Wir stellten außerdem fest, dass entfernte oder gelöschte Tweets in der Regel von neueren Konten mit relativ wenigen Followern und mäßiger Aktivität auf der Website stammen. Im Durchschnitt wurden Tweets, die nicht mehr auf der Website sichtbar waren, von Konten gepostet, die etwa acht Monate jünger waren als diejenigen, deren Tweets auf der Website blieben.

Die meisten Tweets, die von der Website entfernt werden, verschwinden in der Regel kurz nach ihrem Erscheinen. Wir haben nicht nur untersucht, wie viele Tweets aus unserer Sammlung am Ende des Beobachtungszeitraums noch verfügbar waren, sondern auch eine Überlebensanalyse durchgeführt, um zu sehen, wie lange diese Tweets tendenziell verfügbar bleiben. Wir fanden Folgendes heraus:

1 % der Tweets werden innerhalb einer Stunde entfernt
3 % innerhalb eines Tages
10 % innerhalb einer Woche
15 % innerhalb eines Monats

Anders formuliert: Die Hälfte der Tweets, die schließlich von der Plattform entfernt werden, sind innerhalb der ersten sechs Tage nach ihrer Veröffentlichung nicht verfügbar. Und 90 % dieser Tweets sind innerhalb von 46 Tagen nicht mehr verfügbar.

Tweets verschwinden jedoch nicht immer für immer. Etwa 6 % der von uns erfassten Tweets verschwanden und wurden zu einem späteren Zeitpunkt wieder verfügbar. Dies könnte darauf zurückzuführen sein, dass ein Konto privatisiert wurde und dann wieder öffentlich zugänglich ist, oder dass das Konto gesperrt und später wieder aktiviert wurde. Von diesen „wieder aufgetauchten“ Tweets war die überwiegende Mehrheit (90 %) am Ende des Beobachtungszeitraums immer noch auf Twitter verfügbar.

[image]

--
Grüße

---

Ich bin und zugleich nicht.

---

Prediger einer allumfassenden Häresie


gesamter Thread:

RSS-Feed dieser Diskussion

Werbung