Интернет е невъобразимо голямо хранилище на данни със стотици милиарди

...
Интернет е невъобразимо голямо хранилище на данни със стотици милиарди
Коментари Харесай

1/4 от уебстраниците, съществували между 2013 и 2023 година са изчезнали от интернет

Интернет е невъобразимо огромно вместилище на данни със стотици милиарди индексирани уебстраници. Може би си мислите, че уеб пространството единствено се е разширявало през годините, само че това не е по този начин. Ново изследване на изследователския център Pew демонстрира какъв брой къс е интервалът на битие на уеб наличието.

Анализаторите са пресметнали, че 1/4 от общия брой уебстраници, съществували сред 2013 и 2023 година не са били налични към октомври 2023 година.

В множеството случаи това се дължи на обстоятелството, че с течение на времето страниците на уебсайтовете се поправят фрапантно или просто се изтриват. За по-старото наличие тази наклонност също е годна. Около 38% от уебстраниците, които са съществували през 2013 година, през днешния ден към този момент не са налични. Ако разгледаме уебстраници, съществували през 2023 година, сегашният % на недостижимост е 8 %.

Експертите на Pew изследваха връзките (линковете), които се появяват на държавни и новинарски уеб сайтове, както и в раздела „ Връзки “ на страниците на Уикипедия от тази пролет. Анализът откри, че 23% от новинарските уебстраници съдържат най-малко една „ счупена/неактивна “ връзка, както и 21% от държавните уебстраници. Връзките са изключително постоянно срещани на страниците на уебсайтовете на локалните управляващи (градските управи). В същото време 54% от страниците в Уикипедия съдържат най-малко един URL адрес към страница, която към този момент не съществува в раздела „ Връзки “.

38% от уебстраниците от 2013 година към този момент не са налични

Страници в обществените мрежи

За да проследят по какъв начин изчезват страниците в обществените мрежи, анализаторите събират извадка от онлайн туитове напролет на 2023 година в платформата X и ги наблюдават в продължение на 3 месеца. Установено е, че съвсем 1 от всеки 5 изявления в обществените мрежи престава да бъде обществено налична няколко месеца след публикуването им. В 60 % от случаите акаунтът, който в началото е разгласил туита става частен, краткотрайно спрян или е заличен от платформата през същия интервал. В останалите 40 % от случаите притежателят на профила самичък изтрива туита, само че профилът му продължава да съществува. Отбелязва се, че повече от 40 % от туитовете на турски или арабски език изчезват от уеб страницата в границите на 3 месеца след публикуването им.

Уебстраници през последното десетилетие

За тази част от разбора специалистите са събрали инцидентна извадка от малко под 1 милион уебстраници от архивите на Common Crawl. Анализаторите избраха страници от архивите Common Crawl за всяка година от 2013-а насам (приблизително 90 000 страници за всяка година) и ревизираха дали те съществуват сега.

Беше открито, че 25% от тестваните уебстраници не са били налични към октомври 2023 година. Тази стойност е формирана от две числа: 16% са самостоятелно недостъпни страници на дейни уеб сайтове, а други 9% от страниците са недостъпни, тъй като целият уебсайт е престанал да съществува. Логично е, че множеството от недостъпните в този момент запаси са по-стари версии на архивите (38% от определените страници, които са съществували през 2013 година, са престанали да действат към октомври 2023 година).

Линкове в държавни уеб страници

За да се проучва този сегмент от онлайн пространството, бяха определени към 500 000 страници от държавни уеб страници от архива Common Crawl за интервала март-април 2023 гoдина. Общо определените страници съдържаха 42 милиона линкове (86% вътрешни). Около 3/4 от уебстраниците в извадката съдържаха най-малко един линк, като приблизително на страница се падаха по 50. Общо 21 % от изследваните страници на държавни уеб страници съдържаха най-малко един недействителен линк.

Линкове в новинарските уеб страници

В тази категория бяха оценени 500 000 уебстраници от 2063 уеб страницата, които comScore категоризира като вести и информация. Страниците са събрани от архива Common Crawl за интервала март-април 2023 година. Общо определените страници съдържаха 14 млн. линка (средно по 20 на страница). След инспекцията се оказа, че 5% от всички линкове от извадката към този момент не работят, а 23% от страниците от извадката съдържат най-малко един линк към фиктивен запас. Около 25% от страниците на 20-те най-големи новинарски уеб страницата по посещаемост имат най-малко една неработеща връзка.

Препратки в Уикипедия

Анализаторите избраха 50 000 страници в Уикипедия на британски език и разгледаха съдържащите се в тях връзки в раздела „ Връзки “. Около 82% от страниците съдържаха най-малко една неработеща външна връзка. Общо всички страници в извадката съдържаха над 1 милион връзки, като 11% от тях не действаха.

Публикации в обществената мрежа X

Проучването в тази област включва 5 милиона туита, оповестени сред 8 март и 27 април 2023 година в обществената мрежа X, наричана тогава Twitter. След това откривателите наблюдавали тези изявления до 15 юни същата година и всекидневно ги проверявали за досегаемост. Към края на изследването 18% от първичната база от туитове към този момент не са били налични за обзор в платформата. В множеството случаи това е резултат от блокиране или цялостно заличаване на профила на създателя.

Около 1 от 5 туита изчезва от общественото пространство в границите на месеци.

Отбелязва се, че по-голямата част от туитовете се отстраняват от X в границите на един месец. В същото време 1% от изявленията изчезват в границите на един час след публикуването, 3% – в границите на един ден, 10% – в границите на една седмица, 15% – в границите на един месец. С други думи, към половината от туитовете, които изчезват от платформата, стават недостъпни в границите на първите 6 дни от публикуването, а 90% от тези туитове изчезват в границите на 46 дни.

Източник: kaldata.com

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР