През 2013 година работници в германска строителна компания забелязаха нещо

ChatGPT като размазан JPEG файл в мрежата

През 2013 година служащи в немска строителна компания видяха нещо необичайно в тяхната фотокопирна машина Xerox:когато вършат копие на етажния проект на къща, то се различаваше от оригинала по тънък, само че забележителен метод, споделя New Yorker.

В първичния етажен проект всяка от трите стаи на къщата е съпроводена от правоъгълник, указващ нейната повърхност: стаите са надлежно 14,13, 21,11 и 17,42 кв. м. На фотокопието обаче и трите стаи са с повърхност 14,13 кв. м. Тогава компанията се свърза с компютърния академик Дейвид Кризел, с цел да изследва този на пръв взор необикновен резултат.

Имали са потребност от компютърен експерт, тъй като актуалната фотокопирна машина Xerox не употребява физическия ксерографски развой, разпространяван през 60-те години на 20-и век. Вместо това той сканира документа цифрово и по-късно отпечатва получения файл с изображение.

Източник:

Комбинирайте това с обстоятелството, че съвсем всеки файл с цифрово изображение е компресиран, с цел да спести място и мистерията стартира да се разплита от единствено себе си. Компресирането на файл изисква две стъпки: първо, шифроване, по време на което файлът се преобразува в по-компактен формат, а по-късно декодиране, при което процесът е противоположен.

Ако възобновеният файл е еднакъв с оригинала, тогава процесът на компресиране се разказва като без загуба: никаква информация не е изхвърлена. И назад, в случай че възобновеният файл е единствено приближение на оригинала, компресията се разказва като загуба: част от информацията е била изхвърлена и към този момент не може да бъде възобновена.

Надпревара за изкуствен интелект: Alibaba работи върху противник на ChatGPT

Надпревара за изкуствен интелект: Най-големият състезател в електронната търговия в Китай готви противник на ChatGPT

Работи върху технологията, която се тества вътрешно

Компресията без загуби е това, което нормално се употребява за текстови файлове и компютърни стратегии, тъй като това са домейни, в които даже един погрешен знак има капацитета да бъде пагубен. Компресията със загуби постоянно се употребява за фотоси, аудио и видео в обстановки, в които безспорната акуратност не е от значително значение.

През множеството време не виждаме дали дадена картина, ария или филм не са съвършено възпроизведени. Загубата става по-осезаема единствено тогава, когато файловете се притискат доста компактно.

В тези случаи виждаме това, което е известно като артефакти на компресия: размиването на най-малките JPEG и MPEG изображения или тънкият тон на MP3 с ниска побитова скорост. Фотокопирните машини Xerox употребяват формат за компресия със загуби, прочут като JBIG2, предопределен за потребление с черно-бели изображения.

За да спести място, копирната машина разпознава сходни места в изображението и съхранява едно копие за всички тях и когато файлът се декомпресира, той употребява това копие неведнъж, с цел да реконструира изображението.

Източник:

Оказа се, че фотокопирната машина е решила, че етикетите, указващи площта на стаите, са задоволително сходни, че би трябвало да запази единствено един от тях - 14.13 - и го е употребила наново за всичките три стаи, когато отпечатва етажния проект.

Фактът, че фотокопирните машини на Xerox употребяват формат за компресия със загуба, вместо подобен без загуба, самичък по себе си не е проблем. Проблемът е, че фотокопирните машини влошаваха изображението по тънък метод, при който артефактите на компресията не бяха незабавно разпознаваеми.

Рекорд: ChatGPT събра 100 000 000 консуматори за два месеца

Microsoft стартира да интегрира изкуствения разсъдък в Teams

Ако фотокопирната машина просто създава размазани разпечатки, всеки ще знае, че те не са точни репродукции на оригиналите. Това, което докара до проблеми, беше фактът, че фотокопирната машина произвеждаше цифри, които бяха четими, само че неправилни, а това караше копията да наподобяват точни, когато не бяха. През 2014 година Xerox пусна промяна, с цел да поправя този проблем.

Именно този проблем с фотокопирната машина Xerox си коства да се има поради през днешния ден, защото преглеждаме ChatGPT на OpenAI и други сходни стратегии, които A.I. откривателите назовават огромни езикови модели.

Приликата сред фотокопирна машина и огромен езиков модел може да не е явна незабавно, само че дано помислим за следния сюжет:

Представете си, че сте на път да загубите достъпа си до интернет вечно. В подготовка планирате да създадете компресирано копие на целия текст в мрежата, тъй че да можете да го съхранявате на частен сървър.

За страдание, вашият частен сървър има единствено един % от нужното пространство, т.е. не можете да употребявате логаритъм за компресиране без загуби, в случай че желаете всичко да пасне.

Вместо това пишете логаритъм със загуби, който разпознава статистически закономерности в текста и ги съхранява в профилиран файлов формат.

И защото разполагате с на практика неограничена изчислителна мощ, с цел да се справите тази задача, вашият логаритъм може да разпознава извънредно нюансирани статистически закономерности. Това ви разрешава да постигнете мечтаното съответствие на компресия от 100 към 1.

Създателят на Gmail: чатбот като ChatGPT може унищожи бизнеса на Гугъл до две години

ChatGPT се трансформира в обичано средство за задаване на въпроси измежду милиони консуматори

Днес загубата на достъп до интернет не е толкоз ужасна, тъй като вие имате цялата информация в мрежата, съхранена на вашия сървър. Единствената измама е, че защото текстът е толкоз мощно компресиран, не можете да търсите информация, като търсите прецизен откъс. Вие в никакъв случай няма да получите тъкмо съвпадане, тъй като думите не са това, което се съхранява там.

За да разрешите този проблем, създавате интерфейс, който приема поръчки под формата на въпроси и дава отговор, които предават същината на това, което имате на вашия сървър.

Това, което описваме звучи доста като ChatGPT или съвсем всеки различен огромен езиков модел. Така че, в действителност мислете за ChatGPT като за размазан JPEG файл на целия текст в мрежата.

Microsoft обмисля инвестиция от $10 милиарда в ChatGPT

Microsoft обмисля инвестиция от $10 милиарда в евентуален съперник на Гугъл

ChatGPT започва в края на ноември и си завоюва милиони консуматори за по-малко от седмица

Той резервира огромна част от информацията онлайн по същия метод, по който JPEG резервира огромна част от информацията на изображение с по-висока разграничителна дарба, само че в случай че търсите точна поредност от битове, няма да я намерите. Всичко, което в миналото ще получите, е единствено почти.

Като се има поради, че огромните езикови модели като ChatGPT постоянно се възхваляват като авангарда на изкуствения разсъдък, може да звучи надменно, или най-малко обезсърчаващо, да ги опишем като логаритми за компресиране на текст със загуба.

Източник:

От 2006 година AI откривателят Маркъс Хътър предложи парично заплащане, известно като премията за компресиране на човешкото познание или премията Хътър, на всеки, който може да компресира без загуби съответна моментна фотография от 1 гигабайт на Wikipedia.

Вероятно сте срещали файлове, компресирани благодарение на zip файлов формат. Zip форматът понижава едногигабайтовия файл на Хътър до към триста мегабайта - последният притежател на премия съумя да го понижи до 115 мегабайта.

Хътър има вяра, че по-доброто компресиране на текст ще бъде инструмент за основаването на изкуствен интелект на равнище човек, частично тъй като най-голямата степен на компресия може да бъде реализирана посредством схващане на текста.

Няма нищо магическо или мистично в писането, само че то включва повече от слагане на действителен документ върху ненадеждна фотокопирна машина и натискане на бутона. Възможно е в бъдеще да изградим AI, който в действителност е кадърен да напише добра прозаичност.

Денят, в който реализираме това в действителност ще бъде значим, само че този ден е надалеч оттатък хоризонта на нашите прогнози. Междувременно, рационално е да се запитаме каква е изгодата от нещо, което перифразира мрежата?

Ако губехме достъпа си до интернет вечно и трябваше да съхраняваме копие на частен сървър с лимитирано пространство, огромен езиков модел като ChatGPT може да бъде положително решение в случай че приемем, че може да бъде защитен от производство.

Но ние не губим достъпа си до интернет. И по този начин, какъв брой потребен е размазан JPEG, когато към момента имаме оригинала?