Излезе Dragonfire 1.0 - гласовият помощник за Linux
След 3 години работа, публично бе показан виртуалния гласови асистент Dragonfire 1.0 за операционната система Linux, даващ опция за изцяло ръководство на десктопа благодарение на гласови команди.
Проектът Dragonfire 1.0 е написан на програмния език Python и се популяризира под MIT лиценза. Поддържат се Linux дистрибуциите, основани на Ubuntu, в това число KDE neon и elementary OS. Допълнително е квалифициран мобилен клиент за Android.
За разпознаването на гласовите команди се употребява системата за различаване на речта Mozilla DeepSpeech, основана на платформата за машинно образование TensorFlow. За синтезиране на тирада се употребява пакета Festival. Интерфейсът във тип на въпрос/отговор се базира на библиотеката за различаване на текста на естествения език spaCy и на данните от Wikipedia. Отговорите се образуват с потреблението на невронната мрежа seq2seq, тренирана с база данни, съдържаща разговори от филми (Cornell Movie-Dialogs Corpus).
Програмата може да работи в режим на графична анимация, при който на екрана се вижда мъжки или женски контур. Анимацията може да се изключва. С помощта на гласовото ръководство е допустимо да се реализира търсене и подаване на вградените в системата гласови команди, пускане на приложения, пресмятане на математически изрази и задаване на случайни въпроси. Така да вземем за пример, допустимо е да се подаде команда за пускане на офис пакета, да се стартира диктуването на текст и апропо да се запита, кой е най-големият град в България.
Новата система може да работи и в сървърен режим, в който се дава RESTful API за основаване на диалогови чатботове. В програмния пакет е включен образец на чатбот за Twitter. За оптимална работа е желателно съществуването на каквато и да е видеокарта с CUDA ядра и 2 GB оперативна памет. Предвидена е опцията вместо вградения енджин за различаване на речта, да се употребява външния API Гугъл Speech. По този метод е допустима известна спестовност на запаси.
Проектът Dragonfire 1.0 е написан на програмния език Python и се популяризира под MIT лиценза. Поддържат се Linux дистрибуциите, основани на Ubuntu, в това число KDE neon и elementary OS. Допълнително е квалифициран мобилен клиент за Android.
За разпознаването на гласовите команди се употребява системата за различаване на речта Mozilla DeepSpeech, основана на платформата за машинно образование TensorFlow. За синтезиране на тирада се употребява пакета Festival. Интерфейсът във тип на въпрос/отговор се базира на библиотеката за различаване на текста на естествения език spaCy и на данните от Wikipedia. Отговорите се образуват с потреблението на невронната мрежа seq2seq, тренирана с база данни, съдържаща разговори от филми (Cornell Movie-Dialogs Corpus).
Програмата може да работи в режим на графична анимация, при който на екрана се вижда мъжки или женски контур. Анимацията може да се изключва. С помощта на гласовото ръководство е допустимо да се реализира търсене и подаване на вградените в системата гласови команди, пускане на приложения, пресмятане на математически изрази и задаване на случайни въпроси. Така да вземем за пример, допустимо е да се подаде команда за пускане на офис пакета, да се стартира диктуването на текст и апропо да се запита, кой е най-големият град в България.
Новата система може да работи и в сървърен режим, в който се дава RESTful API за основаване на диалогови чатботове. В програмния пакет е включен образец на чатбот за Twitter. За оптимална работа е желателно съществуването на каквато и да е видеокарта с CUDA ядра и 2 GB оперативна памет. Предвидена е опцията вместо вградения енджин за различаване на речта, да се употребява външния API Гугъл Speech. По този метод е допустима известна спестовност на запаси.
Източник: kaldata.com
КОМЕНТАРИ




