Тайното оръжие на Зукърбърг за AI са данните от Facebook
Според последните финансови резултати на Meta Platforms Inc. за доста хора Фейсбук е интернет, а броят на потребителите му продължава да пораства. Но Марк Зукърбърг освен чества този непрестанен напредък. Той желае да се възползва от него, като употребява данните от Фейсбук и Instagram за основаване на мощен изкуствен интелект с общо предопределение.
Звучи отлично и Meta е добре позиционирана да го направи, само че милиардите му консуматори в последна сметка може да платят цената с персоналните си данни и освен.
Ето по какъв начин Зукърбърг подсказа идващия си ход в региона на изкуствения разсъдък в четвъртък: " Във Фейсбук и Instagram има стотици милиарди обществено споделени изображения и десетки милиарди обществени видеоклипове, които съгласно нашите оценки са повече от масива от данни на Common Crawl, а хората споделят и огромен брой обществени текстови изявления в мнения в нашите услуги. "
Въпросът, който Зукърбърг прави тук за " Common Crawl ", изненадва наблюдаващите в софтуерната преса, тъй като този списък към този момент е голям: 250 милиарда уеб страници за интервал от 17 години. Това е едно от най-големите и известни складове на обществения интернет, което през днешния ден се употребява за образование на системи за изкуствен интелект. Когато OpenAI започва своя езиков модел GPT-3 през 2020 година, близо 60% от текста, употребен за образование на системата, идваше от Common Crawl.
Но планината от данни на Meta е още по-голяма, което значи, че теоретично тя може да сътвори " по-интелигентен " ИИ. Това е по този начин, тъй като проучванията демонстрират, че образованието на моделите на ИИ върху повече данни ги прави по-способни и точни. Тази формула е свършила чудеса за OpenAI, която през годините е нараснала количеството данни, употребявани за основаване на модели като ChatGPT.
Ако Зукърбърг желае да сътвори по-мощен чатбот, купчината данни, върху които седи, е изключително скъпа, тъй като огромна част от тях идват от тематики за мнения. Всеки текст, който съставлява човешки разговор, е от решаващо значение за образованието на така наречен разговорни сътрудници, заради което OpenAI интензивно експлоатира интернет форума Reddit Inc. за основаването на собствен личен известен чатбот.
Лесно е да се подиграваме, когато Зукърбърг приказва за нова упоритост - без значение дали става дума за ботове, крипто или метавселена. Най-новата му амбициозна визия е изключително огромна: да сътвори " общ разсъдък " или софтуерни системи, които да доближат или надминат човешкия разсъдък. Но с всички тези данни стремежът на Зукърбърг наподобява изпълним. Проблемът е какви ще са последствията за останалите.
Странно е, че в същото известие, в което Зукърбърг споделя, че екипът му за изкуствен интелект работи по построяването на общ разсъдък " повече от десетилетие ", той споделя също, че Фейсбук едвам в този момент ще се обърне към данните на своите консуматори, с цел да построи модели като " идната основна част от нашия справочник ". Защо Мета към този момент не го е направила? Може би тъй като потреблението на всички тези данни не е толкоз просто. От една страна, това би представлявало още едно нарушаване на неприкосновеността на персоналния живот на 3 милиарда консуматори на Фейсбук и 1,5 милиарда консуматори на Instagram. По същия метод, по който OpenAI беше подложена на рецензии за това, че е употребила предпазените с авторски права данни на художници и писатели, с цел да образова своите модели, Фейсбук може да се сблъска с отрицателни последствия за репутацията си, в случай че още веднъж употребява данните на хората. Това освен повдига комплицирани етични въпроси, само че и може да изисква строги практики за обработка на данни и съблюдаване на световните закони за отбрана на данните, което може да провокира недоволството на европейските регулатори.
Другият проблем е обвързван с предубедеността и токсичността на данните. Според изследване на Университета в Монреал от 2021 година OpenAI трябваше да се оправи с този проблем при Common Crawl, чийто голям масив включваше уебстраници за възрастни. В същото изследване се споделя, че сред 4 и 6% от всички уеб страници в Common Crawl са включвали расови обиди, тирада на омразата или тайни теории на расова основа.
Макар че софтуерът за модериране на наличието на Фейсбук е станал по-добър в блокирането на речта на омразата и тайните теории, той не е идеален и има наклонност да се утежнява в страни отвън Съединени американски щати. Част от наличието във Фейсбук, което се маркира като токсично, към този момент не се преглежда от човек и остава на уеб страницата. Още по-лошо: Когато Зукърбърг сподели, че данните на Meta са по-големи от тези на Common Crawl, той евентуално е присъединил историческия списък на компанията, който ще включва цялото хиперболично политическо наличие и подправени вести, които са били на уеб страницата, преди Зукърбърг да се погрижи да ги почисти.
Цялата работа, която би трябвало да се извърши при деликатното култивиране и инспекция на данните, може да изясни за какво Зукърбърг едвам в този момент заприказва за капитализиране на планината от данни, върху която се намира. Ако не го направи както би трябвало, той рискува да преживее кошмара на обществените рецензии за това по какъв начин Фейсбук се оправя с подправените вести и нездравословното наличие.
Все отново, в случай че има нещо, което знаем за Зукърбърг, то е, че той има фикс идея за победа и доминация, сходна на тази на Цезар. Миналата седмица, към 24 часа откакто се изправи пред навалица от родители във Вашингтон, които го упрекнаха, че води децата им към самонараняване или даже самоубийство, той разгласи едно от най-успешните финансови тримесечия на Meta и се закани по какъв начин ще употребява данните на хората, с цел да сътвори мощен изкуствен интелект.
Близостта на тези събития би трябвало да припомня: Пътят на Фейсбук към благосъстоянието е наранил мнозина. Това може да се случи и по пътя му към основаването на мощен изкуствен интелект.
Парми Олсън е колумнист на Bloomberg, който написа отзиви за технологиите. Бивш кореспондент на Wall Street Journal и Forbes, тя е създател на книгата " Ние сме анонимни ".
Последвайте канала на
Звучи отлично и Meta е добре позиционирана да го направи, само че милиардите му консуматори в последна сметка може да платят цената с персоналните си данни и освен.
Ето по какъв начин Зукърбърг подсказа идващия си ход в региона на изкуствения разсъдък в четвъртък: " Във Фейсбук и Instagram има стотици милиарди обществено споделени изображения и десетки милиарди обществени видеоклипове, които съгласно нашите оценки са повече от масива от данни на Common Crawl, а хората споделят и огромен брой обществени текстови изявления в мнения в нашите услуги. "
Въпросът, който Зукърбърг прави тук за " Common Crawl ", изненадва наблюдаващите в софтуерната преса, тъй като този списък към този момент е голям: 250 милиарда уеб страници за интервал от 17 години. Това е едно от най-големите и известни складове на обществения интернет, което през днешния ден се употребява за образование на системи за изкуствен интелект. Когато OpenAI започва своя езиков модел GPT-3 през 2020 година, близо 60% от текста, употребен за образование на системата, идваше от Common Crawl.
Но планината от данни на Meta е още по-голяма, което значи, че теоретично тя може да сътвори " по-интелигентен " ИИ. Това е по този начин, тъй като проучванията демонстрират, че образованието на моделите на ИИ върху повече данни ги прави по-способни и точни. Тази формула е свършила чудеса за OpenAI, която през годините е нараснала количеството данни, употребявани за основаване на модели като ChatGPT.
Ако Зукърбърг желае да сътвори по-мощен чатбот, купчината данни, върху които седи, е изключително скъпа, тъй като огромна част от тях идват от тематики за мнения. Всеки текст, който съставлява човешки разговор, е от решаващо значение за образованието на така наречен разговорни сътрудници, заради което OpenAI интензивно експлоатира интернет форума Reddit Inc. за основаването на собствен личен известен чатбот.
Лесно е да се подиграваме, когато Зукърбърг приказва за нова упоритост - без значение дали става дума за ботове, крипто или метавселена. Най-новата му амбициозна визия е изключително огромна: да сътвори " общ разсъдък " или софтуерни системи, които да доближат или надминат човешкия разсъдък. Но с всички тези данни стремежът на Зукърбърг наподобява изпълним. Проблемът е какви ще са последствията за останалите.
Странно е, че в същото известие, в което Зукърбърг споделя, че екипът му за изкуствен интелект работи по построяването на общ разсъдък " повече от десетилетие ", той споделя също, че Фейсбук едвам в този момент ще се обърне към данните на своите консуматори, с цел да построи модели като " идната основна част от нашия справочник ". Защо Мета към този момент не го е направила? Може би тъй като потреблението на всички тези данни не е толкоз просто. От една страна, това би представлявало още едно нарушаване на неприкосновеността на персоналния живот на 3 милиарда консуматори на Фейсбук и 1,5 милиарда консуматори на Instagram. По същия метод, по който OpenAI беше подложена на рецензии за това, че е употребила предпазените с авторски права данни на художници и писатели, с цел да образова своите модели, Фейсбук може да се сблъска с отрицателни последствия за репутацията си, в случай че още веднъж употребява данните на хората. Това освен повдига комплицирани етични въпроси, само че и може да изисква строги практики за обработка на данни и съблюдаване на световните закони за отбрана на данните, което може да провокира недоволството на европейските регулатори.
Другият проблем е обвързван с предубедеността и токсичността на данните. Според изследване на Университета в Монреал от 2021 година OpenAI трябваше да се оправи с този проблем при Common Crawl, чийто голям масив включваше уебстраници за възрастни. В същото изследване се споделя, че сред 4 и 6% от всички уеб страници в Common Crawl са включвали расови обиди, тирада на омразата или тайни теории на расова основа.
Макар че софтуерът за модериране на наличието на Фейсбук е станал по-добър в блокирането на речта на омразата и тайните теории, той не е идеален и има наклонност да се утежнява в страни отвън Съединени американски щати. Част от наличието във Фейсбук, което се маркира като токсично, към този момент не се преглежда от човек и остава на уеб страницата. Още по-лошо: Когато Зукърбърг сподели, че данните на Meta са по-големи от тези на Common Crawl, той евентуално е присъединил историческия списък на компанията, който ще включва цялото хиперболично политическо наличие и подправени вести, които са били на уеб страницата, преди Зукърбърг да се погрижи да ги почисти.
Цялата работа, която би трябвало да се извърши при деликатното култивиране и инспекция на данните, може да изясни за какво Зукърбърг едвам в този момент заприказва за капитализиране на планината от данни, върху която се намира. Ако не го направи както би трябвало, той рискува да преживее кошмара на обществените рецензии за това по какъв начин Фейсбук се оправя с подправените вести и нездравословното наличие.
Все отново, в случай че има нещо, което знаем за Зукърбърг, то е, че той има фикс идея за победа и доминация, сходна на тази на Цезар. Миналата седмица, към 24 часа откакто се изправи пред навалица от родители във Вашингтон, които го упрекнаха, че води децата им към самонараняване или даже самоубийство, той разгласи едно от най-успешните финансови тримесечия на Meta и се закани по какъв начин ще употребява данните на хората, с цел да сътвори мощен изкуствен интелект.
Близостта на тези събития би трябвало да припомня: Пътят на Фейсбук към благосъстоянието е наранил мнозина. Това може да се случи и по пътя му към основаването на мощен изкуствен интелект.
Парми Олсън е колумнист на Bloomberg, който написа отзиви за технологиите. Бивш кореспондент на Wall Street Journal и Forbes, тя е създател на книгата " Ние сме анонимни ".
Последвайте канала на
Източник: novini.bg
КОМЕНТАРИ




