Name: Нейросети для перевода аудио в текст
Brand: VIS.center

Нейросети для перевода аудио в текст

Сравниваем 3 нейросети в VisGPT для распознавания аудиодиалога в текстовый формат

В VisGPT есть целых три нейросети, которые могут перевести любую аудиозапись в текст. Это SaluteSpeech от Сбера, Yandex SpeechKit и Whisper от OpenAi.

Варианты использования нейросетей

Протоколирование совещаний и переговоров:

Автоматическое создание текстовых протоколов всех встреч
Моментальный доступ к важным решениям без перемотки записи
Возможность поиска по ключевым словам внутри обсуждений

Создание контента из вебинаров и выступлений:

Преобразование записей вебинаров в статьи для блога
Создание текстовых версий подкастов
Извлечение цитат для социальных сетей

Обработка клиентских звонков:

Анализ разговоров менеджеров с клиентами
Выявление частых вопросов и возражений
Создание базы готовых ответов на типичные запросы

Документирование интервью:

Транскрипция интервью для журналистских материалов
Создание текстовых версий собеседований с кандидатами

И многое другое:

Преобразование лекций в конспекты
Создание субтитров для обучающих видео
Перевод голосовых сообщений в текст для удобного чтения

Сравниваем нейросети

Мы решили сравнить, кто лучше справится с распознаванием диалога. Это телефонный разговор, который содержит технические слова, посмотрим какая нейросеть более точно их распознает.

В сервисе VisGPT выставляем фильтр нейросетей для работы с аудио:

Первым будет SaluteSpeech от Сбера:

Загружаем аудиозапись и пишем запрос:

Вот что получилось:

Текст удобно читается, речь каждого спикера начинается с новой строки. Есть проблемы с корректным написанием названий нашего сервиса и некоторых нейросетей. Ставим 7 из 10.

2. В этом же окне меняем нейросеть на Yandex SpeechKit:

Повторяем действия - загружаем аудио и пишем запрос. Вот результат:

Смена говорящего не так заметна, предложения идут подряд. С названиями та же беда, VisGPT совсем искаверкал. Хотя Далли и Дипсик звучат более точно, чем у предыдущего испытуемого. Ставим 6 из 10.

3. Третьей будет нейросеть для распознавания речи Whisper от OpenAi:

Повторяем процедуру и оцениваем результат:

Диалог узнается слабо, похоже на сплошной текст. С названием VisGPT оказался ближе всех, но остальные также хромают. 4 из 10.

4. Теперь, чтобы превратить это в удобно читаемый диалог, возьмем самый удачный вариант от Salute и перейдем в нейросеть Claude. Мы как раз добавили новую продвинутую версию 3.7.

И просим разбить по ролям и поменять на корректные названия:

Получаем разговор, разделенный на двух спикеров с правильными названиями:

Попробовать можно в сервисе VisGPT — там более 40 нейросетей для бизнеса и маркетинга. Без VPN и с оплатой в рублях!

Хотите заказать такую интеграцию нейросетей в свои бизнес-процессы?

Свяжитесь с нами:

🌐 ai@vis.center

📞 +7 495 177-37-13

Перейти к облаку тегов

Перейти к блогу

Информация

Интеграции

VisGPT - сервис нейросетей
для бизнеса