Кризата се дължи отчасти на невалидни статистически анализи, които преобръщат

...
Кризата се дължи отчасти на невалидни статистически анализи, които преобръщат
Коментари Харесай

Как големите данни хвърлиха в смут голямата наука

Кризата се дължи частично на невалидни статистически разбори, които прекатурват обичайния теоретичен метод на догадка и изследване, считат откриватели

Има големи проблеми в метода, по който се прави науката в ерата на „ огромните данни “ (източник: CC0 Public Domain)

Научните проучвания разкриват нови и нови трендове и взаимовръзки, а капацитетът на „ огромните данни “ дава обещание елементарно „ сдъвкване “ на колосалния размер информация от нови изследвания. Оказва се, че може би това не е чак толкоз добре. Сред учените нараства загрижеността, че в доста области на науката въпросните проучвания наподобява невероятно да се възпроизведат.

Тази рецесия може да се окаже тежка. Например, през 2011 година Bayer HealthCare преглежда 67 вътрешни плана и открива, че от тях по-малко от 25% могат да бъдат възпроизведени. Освен това в две трети от плановете има огромни несъответствия. Съвсем неотдавна, през ноември тази година, анализът на 28 значими документа от региона на логиката на психиката откри, че единствено половината от проучванията действително могат да се възпроизведат.

Подобни констатации се регистрират и в други области, в това число медицината и стопанската система. Поразителните резултати слагат под въпрос доверието към науката. Къде се корени този огромен проблем?

Много фактори имат принос, счита Кай Жанкг, основен помощник по статистика и проучвания в Университета на Северна Каролина. „ Като статистик аз виждам големи проблеми в метода, по който се прави науката в ерата на „ огромните данни “, споделя Жанг в разбора си, представен от theconversation.com. Според него, рецесията се дължи частично на невалидни статистически разбори, които прекатурват обичайния теоретичен метод на догадка и изследване.

Научният способ

В класическия опит статистикът и ученият сядат дружно и първо формулират догадка. След това учените организират опити за събиране на данни, които се проучват от статистиците. Данните удостоверяват или отхвърлят хипотезата.

Известен образец за този развой е историята с „ дамата, дегустираща чай “. Някъде през 20-те години на 20-ти век, на празненство на учени една жена твърди, че може да разпознае по аромата дали в чашата е сипан първо чай или е сипано първо мляко. Статистикът Роналд Фишър се усъмнява в нейния гений. Той счита, че в случай че на дамата се поднесат четири чаши, в които първо е сипан чай, а след това 4 чаши, в които първо е сипано мляко, то тя може да познае, като нейните догатки ще следват модел на вероятностите, наименуван „ хипергеометрично систематизиране “.

Направен е опит с осем чаши чай в случаен ред. Според мълвата, дамата съумяла да категоризира всичките осем чаши напълно вярно. Това са мощни доказателства против хипотезата на Фишър. Вероятността тя да успее да „ уцели “ верните отговори с догадки е извънредно ниска – 1,4%.

Този развой обаче – хипотезата, събирането на данни, а по-късно анализът им – е необичайност в ерата на „ огромните данни “. Днешните технологии могат да събират големи количества данни – от порядъка на 2,5 екзабайта дневно – само че научният метод не се съблюдава, счита Жанг.

Примерът с дамата, дегустираща чай, илюстрира по какъв начин учените могат „ на шанс “ да виждат забавни, само че подправени сигнали в даден набор от данни (източник: CC0 Public Domain)

Въпреки, че трупането на данни е позитивно, науката постоянно се развива с доста по-ниска скорост. Така откривателите може и да не знаят по какъв начин да формулират вярната догадка за разбора на данните. За разлика от класическия случай с дамата с чая, тук бива преобърнат редът на построяването на хипотезата и анализирането на данните.

Проблеми с данните

Защо това катурване може да аргументи огромен проблем? Жанг предлага да разгледаме „ версия на дамата с чая при „ огромните данни “. Това ще рече – „ 100 дами с чая “.

Да предположим, че има 100 дами, които не могат да схванат разликата сред чая, само че вършат хипотеза след всяко вкусване от своите 8 чашки чай. Има 75,6 % възможност най-малко една дама де успее да отгатне вярно.

Ако един статистик я следи и види изумителната поредност от отгатвания за чашите с чай, той може да организира статистически разбор чрез въпросното „ хипергеометрично систематизиране “. Той ще стигне до заключението, че тази дама в действителност има способността да отгатва истината за всяка чаша чай. Но този резултат не може да бъде заимствуван – да бъде още един. Ако същата дама направи втори опит с 8 чаши чай, то тя най-вероятно няма да познае за всичките чаши. Просто няма да има този шанс, който е имала първият път.

Този образец илюстрира по какъв начин учените могат „ на шанс “ да виждат забавни, само че подправени сигнали в даден набор от данни. Те могат да формулират хипотези на база тези сигнали, по-късно да употребяват един и същи набор от данни, с цел да създадат заключенията си, потвърждавайки, че тези признаци са действителни. Може да отнеме известно време, преди да открият, че техните изводи не могат да бъдат възпроизведени. Този проблем е изключително постоянно срещан при огромния разбор на данните, заради огромния размер на данните.

„ Най-лошото е, че този развой може да разреши на учените да манипулират данните, с цел да произведат най-публикувания резултат, “ споделя Жанг. „ Статистиците се майтапят за такава процедура – „ в случай че измъчвате данните задоволително дълго, те все ще ви кажат нещо “. Но дали това нещо може да се възпроизведе и дали е годно?!

По-сериозни разбори

Как могат учените да избегнат казуса и да реализират възпроизводими резултати при разбора на „ огромните данни “? Отговорът е елементарен: би трябвало да бъдат по-внимателни.
Източник: technews.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР