VisGPTСравнениеЦифровизация

Нейросети для перевода аудио в текст

Сравниваем 3 нейросети в VisGPT для распознавания аудиодиалога в текстовый формат

 

В VisGPT есть целых три нейросети, которые могут перевести любую аудиозапись в текст. Это SaluteSpeech от Сбера, Yandex SpeechKit и Whisper от OpenAi.

Варианты использования нейросетей

Протоколирование совещаний и переговоров:

  •    Автоматическое создание текстовых протоколов всех встреч
  •    Моментальный доступ к важным решениям без перемотки записи
  •    Возможность поиска по ключевым словам внутри обсуждений

 

Создание контента из вебинаров и выступлений:

  •    Преобразование записей вебинаров в статьи для блога
  •    Создание текстовых версий подкастов
  •    Извлечение цитат для социальных сетей

 

Обработка клиентских звонков:

  •    Анализ разговоров менеджеров с клиентами
  •    Выявление частых вопросов и возражений
  •    Создание базы готовых ответов на типичные запросы

 

Документирование интервью:

  •    Транскрипция интервью для журналистских материалов
  •    Создание текстовых версий собеседований с кандидатами

 

И многое другое:

  • Преобразование лекций в конспекты
  • Создание субтитров для обучающих видео
  • Перевод голосовых сообщений в текст для удобного чтения

 

Сравниваем нейросети

Мы решили сравнить, кто лучше справится с распознаванием диалога. Это телефонный разговор, который содержит технические слова, посмотрим какая нейросеть более точно их распознает. 

  1. В сервисе VisGPT выставляем фильтр нейросетей для работы с аудио:

Первым будет SaluteSpeech от Сбера:

Загружаем аудиозапись и пишем запрос:

Вот что получилось:

Текст удобно читается, речь каждого спикера начинается с новой строки. Есть проблемы с корректным написанием названий нашего сервиса и некоторых нейросетей. Ставим 7 из 10.

 

2. В этом же окне меняем нейросеть на Yandex SpeechKit:

Повторяем действия - загружаем аудио и пишем запрос. Вот результат:

Смена говорящего не так заметна, предложения идут подряд. С названиями та же беда, VisGPT совсем искаверкал. Хотя Далли и Дипсик звучат более точно, чем у предыдущего испытуемого. Ставим 6 из 10.

 

3. Третьей будет нейросеть для распознавания речи Whisper от OpenAi:

Повторяем процедуру и оцениваем результат:

Диалог узнается слабо, похоже на сплошной текст. С названием VisGPT оказался ближе всех, но остальные также хромают. 4 из 10.

 

4. Теперь, чтобы превратить это в удобно читаемый диалог, возьмем самый удачный вариант от Salute и перейдем в нейросеть Claude. Мы как раз добавили новую продвинутую версию 3.7.

И просим разбить по ролям и поменять на корректные названия:

Получаем разговор, разделенный на двух спикеров с правильными названиями:

Попробовать можно в сервисе VisGPT — там более 40 нейросетей для бизнеса и маркетинга. Без VPN и с оплатой в рублях!

Хотите заказать такую интеграцию нейросетей в свои бизнес-процессы? 

Свяжитесь с нами:

🌐 ai@vis.center

📞 +7 495 177-37-13

 

Перейти к облаку тегов

Перейти к блогу