Това е четвъртият езиков модел в семейството Phi-3 и първият,

Microsoft представи невронната мрежа Phi-3-vision, която е най-подходяща за смартфоните

Това е четвъртият езиков модел в фамилията Phi-3 и първият, който комбинира текст и изображения.

Microsoft анонсира новата невронна мрежа от фамилията Phi-3 на дребни езикови модели, която може да работи с изображения. Phi-3-vision е първият мултимодален модел, който съчетава текст и изображения, може да проучва фотоси, да извлича текст и друга информация.

Според Microsoft моделът Phi-3-vision е най-подходящ за потребление в мобилните устройства. Невронната мрежа има 4,2 милиарда параметъра и сега е налична в предварителна версия. Броят на параметрите въздейства върху това по какъв начин езиковият модел може да извършва нормалните задания за образно мислене. Например, когато става дума за въпроси със схеми, диаграми или изображения. В това отношение Phi-3-vision мощно отстъпва на други живописно насочени модели на изкуствен интелект като DALL-E и Stable Diffusion. За разлика от тези модели Phi-3-vision не генерира изображения, а схваща какво демонстрират те и е в положение да ги проучва. От друга страна, Phi-3-vision превъзхожда по- огромните модели като Claude-3 Haiku и Gemini 1.0 Pro V в постоянно срещаните задания за образно размишление, оптично различаване на знаци, четене на таблици и диаграми.

Microsoft разгласи Phi-3 през април тази година. Към днешна дата, с изключение на визията, в това семейство езикови модели има още три невронни мрежи: Phi-3-mini, Phi-3-small и Phi-3-medium. Те са комфортни за потребление на портативни устройства като смарт телефони и преносими компютри, без да заемат прекалено много памет.