Программы для распознавания голоса и перевода его в текст для Windows устанавливаемые локально(работающие без Интернет)

Гобелен - кликните для возврата на главную

Не прошло и месяца а Фурмановская ЦРБ в очередной раз попала в историю. На этот раз сотрудница клеветала на пациентов, а именно огласку получил случай когда сотрудница назвала пациента алкашём.

Так почему бы не начать использовать обход блокировки YouTube при том что техническая возможность используя расширение nikolaevevge для браузера Mozilla Firefox уже появилась, а объем полезной(и не очень) информации на видеохостинге YouTube, по мнению некоторых диванных экспертов, меньше не стал.

Ровно 3 года назад произошло событие, которое подарило жителям планеты Змеля новый чистый праздник 6 апреля - в этот замечательный день земля забрала гнить негодяя и СПАМера Владимира Вольфовича Жириновского.

Летний сад Фурманов

Как бы не обстояли дела в области культуры и IT-технологий, Самосвал писал статьи на связанные темы и планирует ещё написать.

На очередном конкурсе танцев, школьница отлично выступила.

Что использовать вместо Юбуст

Вот та самая информация: программа для продвижения канала YouTube, эта информация выложена уже несколько лет, при этом просмотров не много, а метод который описан в данном видео действительно помогает продвигать видео в YouTube.

Начал разбираться с информацией которая находится в HTTPS клиентском запросе рукопожатия.

Обратите внимание! Объект изображённый на гобилене может отличаться от общепринятого вида описанного объекта. Тут дело в том что художник видит именно так!

104 549 руб.

Описание товара

Добрый день. Подскажите какую либо программу, возможно модель ИИ которая бы слушала голос человека с использованием микрофона на Windows 10/11 и переводила его в текст. Требуется именно локально установленная программа, способная работать без подключения к Интернет.

Добрый день! Для оффлайн-распознавания речи на Windows 10/11 вам подойдут следующие варианты:

1. Vosk

Описание: Открытая оффлайн-библиотека для распознавания речи с поддержкой нескольких языков (включая русский).

Особенности:

Работает полностью без интернета.

Поддерживает Python, C++, C#, Java и другие языки.

Есть готовые модели для загрузки (разные по размеру и точности). Ссылки: Официальный сайт Vosk Готовые GUI-приложения на основе Vosk 2. Whisper от OpenAI (оффлайн-версии) Описание: Модель Whisper от OpenAI можно запускать локально через сторонние реализации. Особенности: Высокая точность, поддерживает множество языков. Требует мощного CPU или GPU для быстрой работы. Есть портированные версии для локального использования. Варианты: WhisperDesktop (GitHub) – GUI-приложение для Windows. whisper.cpp (GitHub) – облегчённая версия для CPU. 3. RHVoice + SpeechRecognition Описание: Комбинация синтезатора речи RHVoice и Python-библиотеки SpeechRecognition (с оффлайн-моделями). Особенности: Подходит для простых задач. Требует настройки. Ссылка: RHVoice 4. Windows Speech Recognition (встроенное) Описание: В Windows 10/11 есть встроенное распознавание речи, но оно требует интернета для точной работы. Однако можно попробовать настроить его в оффлайн-режиме: Откройте Панель управления → Специальные возможности → Распознавание речи. Обучите систему под ваш голос (улучшит точность). Используйте API через PowerShell или C#. Вывод Лучший баланс точности и простоты: WhisperDesktop или Vosk. Минимальные требования: Vosk (есть лёгкие модели). Максимальная точность: Whisper (но требует ресурсов). Если нужно готовое GUI-приложение, попробуйте WhisperDesktop или поищите обёртки для Vosk (например, Vosk-API-GUI). Расскажите о простом способе установке и использования Vosk на Windows 10/11. Установка и использование Vosk для распознавания речи на Windows 10/11 Vosk — это оффлайн-библиотека для распознавания речи с поддержкой русского и других языков. Вот простой способ установки и использования. 1. Установка Python Vosk работает на Python, поэтому сначала установите его: Скачайте Python с официального сайта. Запустите установщик, обязательно отметьте галочку Add Python to PATH. Нажмите Install Now и дождитесь завершения. Проверка установки: Откройте Командную строку (CMD) и введите: bash python --version Если видите версию (например, Python 3.11.5), значит, всё установлено правильно. 2. Установка Vosk Откройте CMD и введите: bash pip install vosk Также понадобятся дополнительные библиотеки для работы с микрофоном: bash pip install sounddevice pyaudio (Если pyaudio не ставится, попробуйте pip install pipwin, а затем pipwin install pyaudio.) 3. Загрузка модели для распознавания речи Vosk требует языковую модель. Для русского языка: Перейдите на страницу моделей Vosk. Скачайте модель для русского языка (например, vosk-model-small-ru-0.22). Распакуйте архив в удобную папку (например, C:\vosk-models\small-ru). 4. Простой скрипт для распознавания речи Создайте файл speech_recognition.py (например, в Блокноте) и вставьте этот код: python import vosk import sys import sounddevice as sd import queue import json # Укажите путь к модели model_path = "C:/vosk-models/small-ru" # Замените на свой путь! # Инициализация модели model = vosk.Model(model_path) samplerate = 16000 device = 1 # Номер микрофона (можно узнать через sd.query_devices()) q = queue.Queue() def callback(indata, frames, time, status): if status: print(status, file=sys.stderr) q.put(bytes(indata)) # Открываем поток с микрофона with sd.RawInputStream(samplerate=samplerate, blocksize=8000, device=device, dtype='int16', channels=1, callback=callback): print("Говорите... (для выхода нажмите Ctrl+C)") rec = vosk.KaldiRecognizer(model, samplerate) while True: data = q.get() if rec.AcceptWaveform(data): result = json.loads(rec.Result()) print("Текст:", result['text']) else: partial_result = json.loads(rec.PartialResult()) print("Частично:", partial_result['partial'], end='\r') Как запустить? Сохраните файл как speech_recognition.py. Откройте CMD в папке с файлом. Введите: bash python speech_recognition.py Говорите в микрофон – текст будет появляться в консоли. 5. Возможные проблемы и решения 1. Ошибка No module named 'vosk' Попробуйте переустановить Vosk: bash pip uninstall vosk pip install vosk 2. Ошибка с pyaudio Установите его через pipwin: bash pip install pipwin pipwin install pyaudio 3. Микрофон не определяется Проверьте номер устройства: python print(sd.query_devices()) # Выведет список устройств И замените device = 1 на нужный номер. 6. Альтернатива: готовые приложения на Vosk Если не хотите возиться с Python, попробуйте: Vosk-API-GUI – простой графический интерфейс. Speech-to-Text приложения на базе Vosk (есть примеры для C++, Java и др.). Итог Установили Python и Vosk. Скачали модель русского языка. Запустили простой скрипт для распознавания речи. Если нужен GUI – можно найти готовые решения. Теперь у вас есть оффлайн-распознавание речи на Windows! А существуют ли модели Olama которым может быть передан звуковой файл а на выходе получен текст из распознанной речи из переданного звукового файла. Да, Ollama (платформа для запуска LLM локально) не имеет встроенных моделей для распознавания речи, но вы можете использовать её в связке с Whisper или Vosk для расшифровки аудиофайлов. Вот как это сделать: 1. Вариант: Whisper через Ollama (косвенная интеграция) Ollama не поддерживает Whisper напрямую, но вы можете установить Whisper отдельно и передавать его вывод в Ollama для обработки текста. Установка Whisper (оффлайн-версия) Установите Python (официальный сайт). Установите Whisper: bash pip install openai-whisper Скачайте модель (например, base или small для баланса скорости и точности): bash whisper --model small (Модели автоматически загрузятся при первом запуске.) Расшифровка аудиофайла bash whisper "ваш_файл.mp3" --language Russian --model small Результат сохранится в .txt и .vtt. Передача текста в Ollama Можно отправить полученный текст в Ollama для обработки (например, суммаризации): bash ollama run llama3 "Обобщи текст: $(cat output.txt)" 2. Вариант: Vosk (полностью оффлайн) Если нужен 100% оффлайн-режим, используйте Vosk (как в предыдущем руководстве), но с чтением из файла. Установка Vosk bash pip install vosk soundfile Скрипт для расшифровки аудиофайла Создайте transcribe.py: python from vosk import Model, KaldiRecognizer import sys import os import wave import json # Укажите путь к модели (скачайте с https://alphacephei.com/vosk/models) model_path = "vosk-model-small-ru-0.22" if not os.path.exists(model_path): print(f"Модель {model_path} не найдена. Скачайте её с сайта Vosk.") sys.exit(1) # Загрузка модели model = Model(model_path) # Открываем аудиофайл (поддерживается WAV с частотой 16 kHz, моно) audio_file = "audio.wav" if not os.path.exists(audio_file): print(f"Файл {audio_file} не найден.") sys.exit(1) wf = wave.open(audio_file, "rb") rec = KaldiRecognizer(model, wf.getframerate()) result = [] while True: data = wf.readframes(4000) if len(data) == 0: break if rec.AcceptWaveform(data): part_result = json.loads(rec.Result()) result.append(part_result["text"]) final_result = json.loads(rec.FinalResult()) result.append(final_result["text"]) print(" ".join(result)) Как использовать? Конвертируйте аудио в WAV 16 kHz, моно (если нужно, используйте FFmpeg): bash ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav Запустите скрипт: bash python transcribe.py Текст появится в консоли и может быть передан Ollama. 3. Готовые Ollama-совместимые решения Пока прямой интеграции Whisper/Vosk в Ollama нет, но возможны варианты: LlamaIndex + Whisper: Используйте LlamaIndex для RAG с аудиоданными. Самодельный пайплайн: text Аудио → Whisper/Vosk → Текст → Ollama (для анализа/ответа) Итог Способ Требует интернета? Точность Простота Whisper Нет (если модель скачана) Высокая Средняя Vosk Нет Средняя Просто Ollama + Whisper Нет Высокая Сложнее Рекомендация: Если нужно быстро и точно – Whisper. Если полная оффлайновая работа – Vosk. Ollama можно подключить после расшифровки для анализа текста. Для удобства можно написать bash-скрипт, объединяющий Whisper/Vosk и Ollama в один процесс. Этот запрос уточняет мой предыдущий запрос. Сможете ли предложить вариант без Python, так чтобы я из PowerShell установил нужную модель и так же из PowerShell передал модели звуковой файл и в этой же консоли получил результат распознавания речи из файла. Отличный запрос! Да, можно обойтись без Python, используя PowerShell и готовые бинарные версии Whisper или Vosk. Вот несколько вариантов: Вариант 1: Whisper.cpp (оффлайн, без Python) Whisper.cpp – это портированная на C++ версия Whisper от OpenAI, которая работает полностью оффлайн и имеет готовые .exe-файлы для Windows. Установка и использование Скачайте готовый бинарник (выберите whisper или main для Windows): → Releases whisper.cpp (например, whisper-bin-x64.zip). → Распакуйте архив в удобную папку, например: text C:\whisper\ Скачайте модель (например, ggml-small.bin для русского): → Модели Whisper.cpp (размер от 100 МБ до 2 ГБ). → Положите файл модели в папку C:\whisper\models\. Запустите распознавание из PowerShell powershell # Перейдите в папку с whisper.exe cd C:\whisper\bin\ # Запустите распознавание (замените путь к файлу и модели) .\main.exe -m ..\models\ggml-small.bin -f "C:\audio.wav" -l ru -otxt Параметры: -m – путь к модели. -f – аудиофайл (поддерживает WAV, MP3, FLAC). -l ru – язык (русский). -otxt – сохранить результат в .txt. Результат: Текст появится в консоли и сохранится в audio.wav.txt. Вариант 2: Vosk с PowerShell (через CLI-утилиты) Если Whisper.cpp требует слишком много ресурсов, можно использовать Vosk через готовые CLI-инструменты. Установка Скачайте Vosk API для Windows: → Vosk releases (ищите vosk-win64). → Распакуйте архив, например, в C:\vosk\. Скачайте модель для русского языка: → Модели Vosk (например, vosk-model-small-ru-0.22.zip). → Распакуйте в C:\vosk\models\small-ru. Запуск распознавания Конвертируйте аудио в 16 kHz, моно, WAV (если нужно): powershell ffmpeg -i "input.mp3" -ar 16000 -ac 1 "output.wav" (Если нет FFmpeg, скачайте здесь). Запустите распознавание через vosk-cli: powershell cd C:\vosk\ .\vosk-cli.exe -m .\models\small-ru -i .\audio.wav -o .\output.txt Результат: Текст сохранится в output.txt и выведется в консоль. Вариант 3: Другие CLI-инструменты Если нужны альтернативы: Stt (Mozilla DeepSpeech) – требует установки моделей. NVIDIA Riva (для GPU) – сложнее в настройке, но очень быстро. Итог: что выбрать? Инструмент Точность Скорость Простота Оффлайн Whisper.cpp 4 2 3 Да Vosk CLI 3 3 4 Да DeepSpeech 2 3 2 Да

Рекомендация:

Если у вас мощный ПК → Whisper.cpp (лучшая точность).

Если нужно быстро и просто → Vosk CLI.

Оба варианта работают без Python и дают результат прямо в PowerShell!

Я же спрашивал про olama. Есть ли у неё готовое решение которое устанавливается и запускается аналогично выполнению команды ollama run deepseek-r1:32b

На данный момент Ollama не имеет встроенной поддержки распознавания речи (ASR) и не предлагает готовых моделей для обработки аудиофайлов, в отличие от текстовых моделей (например, deepseek-r1:32b). Однако вы можете создать пайплайн для обработки аудио с помощью Whisper или Vosk, а затем передать распознанный текст в Ollama. Вот как это сделать максимально удобно: Способ 1: Whisper + Ollama (через PowerShell) 1. Установите Whisper (оффлайн-версия через whisper.cpp) powershell # Скачайте бинарник Whisper.cpp для Windows Invoke-WebRequest -Uri "https://github.com/ggerganov/whisper.cpp/releases/download/v1.5.0/whisper-bin-x64.zip" -OutFile "whisper.zip" Expand-Archive -Path "whisper.zip" -DestinationPath "C:\whisper\" -Force cd C:\whisper\bin 2. Скачайте модель для русского языка powershell # Модель small (достаточно для большинства задач) Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "C:\whisper\models\ggml-small.bin" 3. Распознайте аудиофайл и передайте текст в Ollama powershell # Распознаём аудио (сохраняем в текстовик) .\main.exe -m ..\models\ggml-small.bin -f "C:\audio.wav" -l ru -otxt -of "C:\output" # Читаем распознанный текст и передаём в Ollama $text = Get-Content -Path "C:\output.txt" ollama run llama3 "Обобщи этот текст: $text" Способ 2: Vosk + Ollama (если Whisper слишком тяжёлый) 1. Установите Vosk CLI powershell # Скачиваем Vosk API для Windows Invoke-WebRequest -Uri "https://github.com/alphacep/vosk-api/releases/download/v0.3.45/vosk-win64-0.3.45.zip" -OutFile "vosk.zip" Expand-Archive -Path "vosk.zip" -DestinationPath "C:\vosk\" -Force # Скачиваем русскую модель Invoke-WebRequest -Uri "https://alphacephei.com/vosk/models/vosk-model-small-ru-0.22.zip" -OutFile "vosk-model-ru.zip" Expand-Archive -Path "vosk-model-ru.zip" -DestinationPath "C:\vosk\models\small-ru\" -Force

2. Распознаём аудио и передаём в Ollama

powershell cd C:\vosk\ .\vosk-cli.exe -m .\models\small-ru -i "C:\audio.wav" -o "C:\output.txt" # Передаём текст в Ollama $text = Get-Content -Path "C:\output.txt" ollama run mistral "Проанализируй: $text"

Способ 3: Готовый Bash-скрипт (если используете WSL)

Если у вас есть WSL (Windows Subsystem for Linux), можно сделать ещё проще:

bash

    
#!/bin/bash
# Устанавливаем Whisper в WSL
sudo apt update && sudo apt install -y ffmpeg
pip install openai-whisper
      
# Распознаём аудио
whisper "audio.wav" --language Russian --model small --output_dir ./output
      
# Передаём текст в Ollama
ollama run llama3 "$(cat ./output/audio.wav.txt)"

Итог

Ollama сама по себе не умеет в ASR, но отлично работает с текстом.

Whisper.cpp – лучший вариант для оффлайн-распознавания.

Vosk – легче, но менее точен.

Диаграмма

    
A[Аудиофайл] --> B(Whisper/Vosk)
B --> C[Текст]
C --> D(Ollama)

Если хочется "как Ollama, но для речи", придётся ждать, пока добавят ASR-модели (например, Whisper в виде ollama run whisper). Пока такого нет, но можно автоматизировать пайплайн через PowerShell-скрипт!

Другие товары

Вы так же можете прочитать следующие статьи: