Metadata-Version: 2.3
Name: ru-text-cleaner
Version: 2.0.2
Summary: Cleans russian text and preparing for NLP
Project-URL: Homepage, https://github.com/rvneural/TextCleaner
Project-URL: Issues, https://github.com/rvneural/TextCleaner/issues
Author: Vildan Nasyrov
Author-email: Artem Gafarov <a.m.gafarov@ya.ru>
License-File: LICENSE
Classifier: License :: OSI Approved :: MIT License
Classifier: Operating System :: OS Independent
Classifier: Programming Language :: Python :: 3
Requires-Python: >=3.10.4
Description-Content-Type: text/markdown

# RU-TEXT-CLEANER

## Библиотека подготовки русского текста для решения NLP- и иных задач

Установка: `pip install ru-text-cleaner`

Основным форматом использования билиотеки является:
```Python
from ru_text_cleaner import SimpleCleaner

text_cleaner = SimpleCleaner()

string = 'Какая-то    форматирования-нибудь \n\n\t строка-либо то-то'

formated_text = text_cleaner.clean_text(string)
```

В этом случае Вы получите следующий результат в переменной `formated_text`:

```Python
форматирование строка либо 
```
Функция `clean_text()` принимает на вход строку и возвращает строку. Аналогично функция `clean_texts()` принимает на вход массив строк и возвращает массив отформатированных строк.

Во время инициатизации объекта класса `TextCleaner()` можно вручную указать, какое конкретно форматирование текста будет производиться:

```Python
spaces=True # убирает многократные пробелы в тексте
punctuation=True # убирает знаки пунктуации в строке
html=True # убирает HTML-теги
emoji=True # убирает эмодзи
lower=True # переводит текст в нижний регистр
stop_words=True # убирает стоп-слова (союзы, предлоги и так далее)
morpheme=True # преобразует слова в их начальные формы (автоматически переводит текст в нижний регистр)
```
_По умолчанию все переменные установлены в значение `True`._

Начиная с версии `2.0.0` для импорта также доступен класс `TensorCleaner` с аналогичным функционалом, который принимает на вход строковые тензоры