Как превратить ваш голос в текст в режиме реального времени с помощью Whisper Desktop
У создателей ChatGPT есть еще один инструмент, призванный облегчить нагрузку на ваши пальцы.
Те же люди, что и ChatGPT, создали еще один инструмент на основе искусственного интеллекта, который вы можете использовать уже сегодня, чтобы повысить свою производительность. Мы имеем в виду Whisper, решение для преобразования голоса в текст, которое затмило все аналогичные решения, существовавшие до него.
Вы можете использовать Whisper в своих программах или в командной строке. Тем не менее, это противоречит самой его цели: печатать без клавиатуры. Если вам нужно написать, чтобы использовать его, зачем использовать его, чтобы не писать? К счастью, теперь вы можете использовать Whisper через графический интерфейс рабочего стола. Более того, он также может транскрибировать ваш голос почти в реальном времени. Давайте посмотрим, как вы можете печатать голосом с помощью Whisper Desktop.
Что такое Whisper OpenAI?
Whisper от OpenAI – это система автоматического распознавания речи (сокращенно ASR) или, проще говоря, решение для преобразования разговорной речи в текст.
Однако, в отличие от старых систем диктовки и транскрипции, Whisper представляет собой решение с искусственным интеллектом, натренированное на более чем 680 000 часов речи на разных языках. Whisper предлагает непревзойденную точность и, что весьма впечатляет, не только многоязычен, но и может переводить с одного языка на другой.
Что еще более важно, он бесплатный и доступен с открытым исходным кодом. Благодаря этому многие разработчики внедрили его код в свои проекты или создали приложения, использующие его, например, Whisper Desktop.
Являются ли Whisper и Whisper Desktop одинаковыми?
Несмотря на официальное название, Whisper Desktop — это сторонний графический интерфейс пользователя для Whisper, предназначенный для тех, кто предпочитает нажимать кнопки, а не вводить команды.
Whisper Desktop — это автономное решение, которое не зависит от существующей установки Whisper. В качестве бонуса он использует альтернативную, оптимизированную версию Whisper, поэтому он должен работать лучше, чем автономная версия.
Вы находитесь на другом конце спектра, и вместо того, чтобы искать более простой способ использовать Whisper чем терминал, ищете способы внедрить его в свои собственные решения? Радуйтесь, потому что OpenAI открыл доступ к API ChatGPT и Whisper.
Скачать & Установка Whisper Desktop
Хотя Whisper Desktop проще в использовании, чем автономный Whisper, его установка сложнее, чем многократное нажатие кнопки «Далее» в мастере.
- Посетите официальную страницу Whisper Desktop на GitHub. Посмотрите вправо и выберите последнюю версию в разделе Выпуски.
- Under Ресурсы, нажмите WhisperDesktop.zip.и скачайте его на свой компьютер.
- Разархивируйте загруженный архив в папку и откройте его с помощью файлового менеджера. Внутри вы найдете приложение Whisper Desktop. Дважды щелкните по нему, чтобы запустить его.
- Вам также потребуется языковая модель Whisper в двоичном формате GCML. Whisper Desktop предоставит вам две ссылки. Пропустите вторую ссылку для создания собственной модели, так как это более сложный процесс. Нажмите Hugging Face чтобы открыть эту страницу в браузере по умолчанию, откуда можно загрузить готовый к использованию файл.
- Версия Whisper Desktop, которую мы использовали при написании этой статьи, содержала ссылку на устаревший репозиторий Hugging Face. Если вы столкнулись с той же проблемой, обратите внимание на ссылку на новое местоположение.. Нажмите на нее, чтобы посетить новый репозиторий.
- Нажмите на ссылку, которая приведет вас к доступным моделям.
- В этом списке выберите ggml-medium.bin или ggml- medium.en.bin, в зависимости от того, хотите ли вы многоязычную или английскую поддержку только шепотом.
- Обратите внимание на строку, в которой говорится, что этот файл хранится в Git LFS и слишком велик для отображения, но вы все равно можете его загрузить. Нажмите скачать, чтобы сделать это.
- Когда файл завершит загрузку, используйте свой любимый файловый менеджер (подойдет проводник), чтобы переместить загруженный файл шаблона языка в ту же папку, что и Whisper Desktop.
Расшифровка с помощью Whisper Desktop
Транскрипция с помощью Whisper Desktop проста, но вам может потребоваться один или два клика, чтобы использовать приложение.
Перезапустите Whisper Desktop. (Все еще) отсутствует правильный путь к загруженной языковой модели? Нажмите кнопку с тремя точками справа от поля и вручную выберите файл, который вы загрузили из Hugging Face.
Здесь вы также можете использовать раскрывающееся меню рядом с Implement Pattern, чтобы выбрать, хотите ли вы хотите запустить Whisper на вашем GPU (GPU), как на CPU, так и на GPU или только на CPU .
Дополнительно >приводит к большему количеству опций, которые влияют на то, как Whisper будет работать на вашем оборудовании. Однако, поскольку на кнопке четко указано, что они являются расширенными, мы предлагаем вам изменять их только в том случае, если вы устраняете неполадки или знаете, что делаете. Установка здесь неверных значений параметров может снизить производительность или сделать приложение непригодным для использования.
Нажмите «ОК», чтобы перейти к основному интерфейсу приложения.
Если у вас уже есть запись вашего голоса, которую вы хотите преобразовать в письменный текст, нажмите Транскрибировать файл и выберите его. Мы по-прежнему будем использовать Whisper Desktop для трансляции этой статьи в реальном времени.
Предложенные варианты понятны. Вы можете выбрать язык, который будет использовать Whisper, указать, хотите ли вы переводить между языками, и включить консоль отладки приложения.
Большинство англоязычных пользователей могут спокойно пропустить эти параметры и просто убедиться, что правильный аудиовход выбран в раскрывающемся меню рядом с Захват устройства.
Сделать Убедитесь, что включены Сохранить в текстовый файл и Добавить в этот файл, чтобы Whisper Desktop сохранял выходные данные в файл, не перезаписывая его содержимое. Используйте <сильный>кнопку с многоточием справа от поля пути к файлу, чтобы определить указанный текстовый файл.
Нажмите Записать, чтобы начать преобразование речи в текст.
Whisper Desktop покажет вам три индикатора, когда он обнаруживает голосовую активность, когда он активно транскрибирует и когда процесс остановлен.
Вы можете продолжать говорить столько, сколько хотите, и вы должны время от времени видеть, как первые два индикатора мигают, пока приложение преобразует ваш голос в текст. Когда закончите, нажмите Стоп.
Выбранный вами текстовый файл должен открыться в вашем текстовом редакторе по умолчанию, содержа в письменной форме все, что вы сказали, пока не нажимайте Стоп.
Мы должны отметить, что вы также можете сделать противоположное тому, что мы видели здесь: преобразовать любой текст в речь. Таким образом, вы можете слушать все, как если бы это был подкаст, вместо того, чтобы напрягать глаза, щурясь на экраны. Для получения дополнительной информации ознакомьтесь с нашей статьей о некоторых из лучших бесплатных онлайн-инструментов для загрузки преобразования текста в речь в формате MP3-аудио.
Whisper Советы по голосовому вводу на рабочем столе
Хотя Whisper Desktop может быть спасением, позволяя печатать голосом намного быстрее, чем вы печатаете, он далек от совершенства.
Во время нашего тестирования мы обнаружили, что иногда он может заикаться, пропускать некоторые слова, не расшифровывать, пока вы вручную не остановите и не перезапустите процесс, или застревает в цикле и продолжает расшифровывать одну и ту же фразу несколько раз.
Мы полагаем, что это временные проблемы, которые будут исправлены, поскольку автономный Whisper не проявляет таких проблем.
Помимо этих незначительных сбоев, преобразование вашего голоса в текст должно быть простым с помощью Whisper Desktop. Однако в ходе нашего тестирования мы обнаружили, что он мог бы работать еще лучше, если бы…
- Вместо того, чтобы говорить всего два или три слова и затем делать паузу, Whisper может лучше понять вас, если вы продолжите дольше. Попробуйте, по крайней мере, дать ему целое предложение за один раз.
- По той же причине избегайте повторного запуска и остановки процесса транскрипции.
- Всякий раз, когда вы понимаете, что совершили ошибку, игнорируйте ее и двигайтесь дальше. Загрузка и выгрузка языковой модели кажется наиболее трудоемкой частью процесса с текущим состоянием Whisper и нашим доступным оборудованием. Так что быстрее продолжать говорить, а потом исправлять свои ошибки.
- Как и в случае с автономной версией Whisper, лучше всего использовать оптимальную языковую модель для доступного оборудования. Вы можете использовать модель вплоть до средней, если ваш графический процессор имеет 8 ГБ видеопамяти. Для меньшего количества видеопамяти выберите меньшие модели. Выбирайте чуть более точную, но гораздо более требовательную большую модель, только если вы используете графический процессор с 16 ГБ видеопамяти или более.
- Помните, что чем больше языковая модель, тем медленнее процесс транскрипции. Не выбирайте модель большего размера, чем необходимо. Скорее всего, теперь вы обнаружите, что Whisper Desktop «доходит до вас». большую часть времени со средними или меньшими шаблонами, только с одной или двумя ошибками в абзаце.
Вы все еще печатаете? Используйте свой голос с помощью Whisper
Хотя настройка занимает некоторое время, как вы увидите, когда попробуете его, Whisper Desktop работает намного лучше, чем большинство альтернатив, с гораздо большей точностью и большей скоростью.
Как только вы начнете использовать ее для набора текста голосом, ваша клавиатура может показаться пережитком ушедшей эпохи.