Claude AI ще прекъсва разговори, които смята за вредни или обидни
Компанията Anthropic вкара нова функционалност в своя чат-бот Claude AI, която му разрешава да прекъсва разговори, оценени като " нездравословни или обидни ".
Според разработчика, тази мярка ще се ползва единствено в крайни случаи и към този момент е налична в моделите Opus 4 и 4.1. Основната цел е да се защищити както самият модел, по този начин и потребителите от взаимоотношения, пораждащи сериозен дискомфорт.
По време на проби Claude е посочил ясна наклонност да отхвърля присъединяване в основаване на нездравословно наличие - от принуждение и тероризъм до полови материали с малолетни.
Интересното е, че моделът е подготвен да не приключва диалозите, в случай че консуматор показва планове за самонараняване или причиняване на неизбежна щета. В такива обстановки Claude се свързва с Throughline - онлайн услуга за спешна поддръжка, която оказва помощ в създаването на съответни и потребни отговори, свързани с психологично здраве.
Миналата седмица Anthropic също по този начин актуализира политиката за приложимост на Claude, ограничавайки потреблението му за разработка на биологични, химически, нуклеарни или радиологични оръжия, както и за основаване на злотворен програмен продукт или употреба на уязвимости. Компанията акцентира, че в ерата на бързо разрастващи се AI модели сигурността и положителното на потребителите би трябвало да бъдат преди всичко.




