Голосовое управление на основе SDK ОК Гугл (OK Google)

directman66 · Сообщение **directman66** » Пн окт 23, 2017 4:22 pm

2lanket, можно попросить выложить все скрипты для запуска и активации. Попробую переделать для малины. Полагаю одного главного скрипта из шапки недостатончо. Попробовал образы открыть всеми имеющимися программами, предлагается только записать их на флэшку.

Кстати, есть и синтезаторы речи на питоне. Можно ими выговаривать ответ Алисы, но его надо както получить, тут либо сервис прослушки поднимать.....намного проще наверно слушать аудиопоток.

Sas · Сообщение **Sas** » Пн окт 23, 2017 4:37 pm

Я неделю назад разобрал всю систему и пока живу только на михом.
Там из скрипта: определить слово сфинксом и скормить все остальное Яндексу/Гуглу
Вроде как в теме сфинкса есть готовые примеры.
Микрофон использовал: stelberry m-60, звуковуха юсб креатив иксфай(на китайской очень много шумов).
Система с 1 микрофоном работала на всю однокомнатную квартиру и воспринимала тихую речь с метров 7.
Шумодав что по ссылке - фигня. Оно все равно будет слышать телевизор/радио и других людей.
Тут надо выделять голос пользователя из всех остальных, но что делать если пользователей несколько. Не затыкать же всем рты в момент команды:)

lanket · Сообщение **lanket** » Пн окт 23, 2017 6:08 pm

directman66 писал(а):2lanket, можно попросить выложить все скрипты для запуска и активации. Попробую переделать для малины. Полагаю одного главного скрипта из шапки недостатончо. Попробовал образы открыть всеми имеющимися программами, предлагается только записать их на флэшку.

Кстати, есть и синтезаторы речи на питоне. Можно ими выговаривать ответ Алисы, но его надо както получить, тут либо сервис прослушки поднимать.....намного проще наверно слушать аудиопоток.

Так скрипт он то один который из шапки. Остальное по сути это просто установка sdk по описанию. В шапке же есть ссылка как установить на raspberry pi 3, потом просто поменять скрипт hotword.py в примерах которые установятся вместе с sdk путь есть в шапке на тот который в шапке.

Отправлено с моего Redmi Note 4 через Tapatalk

lanket · Сообщение **lanket** » Пн окт 23, 2017 6:31 pm

Sas писал(а):Я неделю назад разобрал всю систему и пока живу только на михом.
Там из скрипта: определить слово сфинксом и скормить все остальное Яндексу/Гуглу
Вроде как в теме сфинкса есть готовые примеры... .

Я не очень в питоне, если не заметили. Если не затруднит поделитесь готовым скриптом пожалуйста протестировать.

Sas писал(а):Микрофон использовал: stelberry m-60, звуковуха юсб креатив иксфай(на китайской очень много шумов).
Система с 1 микрофоном работала на всю однокомнатную квартиру и воспринимала тихую речь с метров 7.
Шумодав что по ссылке - фигня. Оно все равно будет слышать телевизор/радио и других людей.
Тут надо выделять голос пользователя из всех остальных, но что делать если пользователей несколько. Не затыкать же всем рты в момент команды:)

Это любой микрофон будет слышать все происходящее в комнате. Выделить одного из толпы, как программа поймёт кого именно надо слушать если говорят все. Не говоря уже что одновременная речь нескольких людей для программы пока что тихий ужас для машины . Это и так понятно что будет работать только когда все остальные молчат. В той же машине при радио не всегда понимает голосовые команды, да ещё и из радио может слов на хвататься. А ещё пол года назад примерно яндекс карты любили ложно срабатывать на ключевое слово. Прикольно так едешь а тут вдруг яндекс навигатор предлагает проехать до 'облачно, местами осадки со снегом'.

Поэтому мне кажется sdk должно лучше реагировать и меньше ложно срабатывать на ключевое слово.

Спасибо за наводку качественных микрофона и звукавухи.

Микрофон из шапки тестировался в относительно тишине, на первом этаже шум гам, на втором никого кроме меня.

Ещё гложет один вопрос как превратить эту апельсинку в говорящий терминал.

Надо поковырять модуль для Kodi что бы понять как подписаться на событие отправки текста сообщения системы для данного терминала.

Есть мысли как передать его в апельсинку?

Mqtt нужен сервер который не у каждого, и затруднит многим установку у себя.

Get запросом надо апач ставить, не жирновато ли для такой маленькой задачи.

Отправлено с моего Redmi Note 4 через Tapatalk

lanket · Сообщение **lanket** » Пн окт 23, 2017 6:38 pm

А вот и наводка на решение.
Получается надо модуль писать для majordomo чтобы через сокеты передавать текст для озвучки голоса Алисы. И будет полноценный терминал.

Отправлено с моего Redmi Note 4 через Tapatalk

directman66 · Сообщение **directman66** » Пн окт 23, 2017 10:22 pm

2Ianket, поделитесь словарем и акустической моделью, которая работает на orange pi zero. Малине почему-то не хватает памяти на загрузку всего русского словаря.

Отправлено с моего Redmi Note 3 через Tapatalk

directman66 · Сообщение **directman66** » Пн окт 23, 2017 10:25 pm

Sas писал(а):Я неделю назад разобрал всю систему и пока живу только на михом.
Там из скрипта: определить слово сфинксом и скормить все остальное Яндексу/Гуглу
Вроде как в теме сфинкса есть готовые примеры.
Микрофон использовал: stelberry m-60, звуковуха юсб креатив иксфай(на китайской очень много шумов).
Система с 1 микрофоном работала на всю однокомнатную квартиру и воспринимала тихую речь с метров 7.
Шумодав что по ссылке - фигня. Оно все равно будет слышать телевизор/радио и других людей.
Тут надо выделять голос пользователя из всех остальных, но что делать если пользователей несколько. Не затыкать же всем рты в момент команды:)

А почему сфинкс не использовать для полного распознавания? По моему у Ianket задумка наоборот. Гугл асистент слушает ключевое слово и запускает уже свой скрипт сфинкса.

Отправлено с моего Redmi Note 3 через Tapatalk

Sas · Сообщение **Sas** » Пн окт 23, 2017 11:17 pm

directman66 писал(а):А почему сфинкс не использовать для полного распознавания? По моему у Ianket задумка наоборот. Гугл асистент слушает ключевое слово и запускает уже свой скрипт сфинкса.

Сфинкс и одно слово определяет не очень, а целые команды состоящие из нескольких слов вообще проблема. Да и зачем чтоб нас постоянно слушал Гугл или Яндекс? Тем более что у них обычно лимиты на распознавания.

2 lanket скрипт был на баше. Соберу систему назад не раньше как перееду, а это ещё неизвестно когда будет.
Любой микрофон не подойдёт. Тестировал и с китайскими и с "фирменными" с усилителями и без. Только после этого начал искать активные микрофоны. Шорохи найти не получилось взял м60 и м20, но последний протестировать не успел:(

lanket · Сообщение **lanket** » Вт окт 24, 2017 12:26 am

Подождите. У меня сейчас работает таким образом:
Google Assistant слушает постоянно ради вылавливания ключевого слова.
Потом, когда ключевое слово сработало, включается библиотека питона speech_recognition. Ей можно сказать распозновать либо с помощью Гугла онлайн, либо оффлайн с помощью Sphinx, и еще всякие сервисы распознования.

Попробовал отключить на роутере доступ в интернет апельсинке с ассистентом и ключевое слово перестало работать.
То есть без интернета реагировать на ключевое слово не будет. Если это ключевое слово ловит гугл асситент. А вот Sphinx будет, как я понимаю. Правда мои подозрения подтвердил Sas, Гугл по ходу лучше распознает. По крайней мере работет идеально. Мешает только иногда его не буквальное распознование. Он пытается понять фразу а не тупо набор слов. Но это мешает другой моей небольшой разработке почти готовой которая напрямую зависит от голоса.

Дал интернет обратно, заработало. В консоле на каждое удачное вычитает единицу запроса из квоты.
в "Мои действия" где подробно что происходит есть аудиозапись каждого удачного распознования ключевого слова, ложных
Всего дается 500 удачных срабатываний ключевого слова в сутки.

Получается оффлайн не получиться ловить ключевое слово. Да и в сутки более 500 команд врят ли будет в обычной семье. Должно хватить я думаю.

lanket · Сообщение **lanket** » Вт окт 24, 2017 12:28 am

Sas писал(а):...
2 lanket скрипт был на баше. ...

На баше лишь удобный пуск в одну команду из консоли.

А сам скрипт на питоне.

Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)

Re: Голосовое управление на основе SDK ОК Гугл (OK Google)