kontur-ai

kontur-ai/sbert_punc_case_ru

No description available.

Model Documentation

SbertPuncCase



SbertPuncCase
  • модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса;
  • определять регистр
  • слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре.
  • Модель разработана для восстановления текста после распознавания речи, поэтому работает со строками в нижнем регистре. В основу модели легла sbert_large_nlu_ru. В качестве обучающих данных использованы текстовые расшифровки интервью.

    Как это работает



    1. Текст переводится в нижний регистр и разбивается на слова. 2. Слова разделяются на токены. 3. Модель (по аналогии с задачей NER) предсказывает класс для каждого токена. Классификация на 12 классов: 3+1 знака препинания * 3 варианта регистра. 4. Функция декодировки восстанавливает текст соответственно предсказанным классам.

    Как использовать



    Код модели находится в файле sbert-punc-case-ru/sbertpunccase.py.

    1. Убедитесь, что у вас установлен git-lfs.

    2. Далее для быстрой установки можно воспользоваться командой:

    
    pip install git+https://huggingface.co/kontur-ai/sbert_punc_case_ru
    


    Использование модели:
    
    from sbert_punc_case_ru import SbertPuncCase
    model = SbertPuncCase()
    model.punctuate("sbert punc case расставляет точки запятые и знаки вопроса вам нравится")
    


    Авторы



    Альмира Муртазина

    Александр Абугалиев

    Files & Weights

    FilenameSizeAction
    model.safetensors 0.79 GB