Компаниите, които изграждат големи езикови модели, все по-често се сблъскват

...
Компаниите, които изграждат големи езикови модели, все по-често се сблъскват
Коментари Харесай

Google представи VaultGemma – езиков модел със защита на личните данни

Компаниите, които построяват огромни езикови модели, все по-често се сблъскват с казуса с неналичието на качествени данни и риска от „ запаметяване “ на сензитивна информация. За да избегнат това, откривателите на Гугъл създадоха VaultGemma – отворен модел с интегрирани техники за диференцирана отбрана на персоналните данни. Тази технология понижава риска от инцидентното откриване на персонална информация и материали, предпазени с авторски права. В същото време VaultGemma се показва толкоз добре, колкото и моделите с сходни размери.

Големите езикови модели (LLM) имат недетерминистичен излаз, което значи, че е невероятно да се планува какво тъкмо ще генерират. Дори при едни и същи поръчки резултатите могат да варират. В същото време моделите от време на време възпроизвеждат фрагменти от информацията от наборите от данни за образование. Ако тези набори от данни съдържат персонална информация за потребителите, това може да наруши неприкосновеността на персоналния живот. По същия метод, в случай че наборът от данни за образование съдържа материали, предпазени с авторски права, те могат да се появят в отговорите на модела. Това е проблем за разработчиците.

Диференциалната отбрана на персоналните данни взема решение този проблем посредством прибавяне на калибриран „ звук “ по време на етапа на образование. По този метод вероятността моделът да „ запомни “ съответни данни е по-малка. Този метод обаче може да понижи точността и да усили условията за изчислителни запаси. Досега е направено единствено малко изследване за това по какъв начин диференциалната дискретност въздейства върху мащабирането и продуктивността на моделите.

Изследователският екип на Гугъл е провел опити с разнообразни размери на модела и равнища на шума, с цел да изследва законите на мащабиране на поверителността. Те откриха, че продуктивността на модела зависи от съотношението сред шума и размера на пакета данни: прекомерно многото звук понижава качеството, в случай че не се компенсира с повече калкулации или данни. Тези резултати оказват помощ на разработчиците да намерят салдото сред поверителността, изчислителния бюджет и качеството на модела.

Въз основа на това проучване беше основан моделът VaultGemma, основан на Gemma 2, който има 1 милиард параметъра. Моделът употребява диференцирана дискретност, с цел да понижи риска от откриване на информация, като в същото време продуктивността му е сравнима с стандартните модели с сходен размер.

Тестовете демонстрираха, че VaultGemma се показва добре при нормалните задания на изкуствения разсъдък. Диференциалната дискретност може да бъде потребна при услугите, които обработват персонални или корпоративни данни, при които поверителността е от сериозно значение.

VaultGemma към този момент е разполагаем за евакуиране в Hugging Face и Kaggle. Моделът е с отворен код, само че сорс кодът не е изцяло отворен. Потребителите могат да трансформират и популяризират модела, като съблюдават лиценза на Gemma.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР