Metadata-Version: 2.1
Name: ru_parser_cv
Version: 1.0.1
Summary: Python module for parsing Russian CVs and extracting information from them
Home-page: https://github.com/dmitry-batrov/ru_parser_cv
Author: Dmitry Batrov
Author-email: d.batrov@yandex.ru
License: Apache License, Version 2.0
Classifier: License :: OSI Approved :: Apache Software License
Classifier: Operating System :: OS Independent
Classifier: Programming Language :: Python :: 3.6
Requires-Python: >=3.6
Description-Content-Type: text/markdown
License-File: LICENSE
Requires-Dist: spacy>=3.7.0
Requires-Dist: fuzzywuzzy
Requires-Dist: ru_cv_parse_model

# Библиотека для парсинга резюме - ru_parser_cv-1.0.1

## Описание

Эта библиотека представляет из себя скрипт Python. Она предназначена для обработки текстовых данных (резюме) и извлечения различных сущностей, таких как имена, организации, должности, опыт работы и образование. Он использует библиотеку `spaCy` для обработки естественного языка (NLP), обученную модель spaCy `ru_cv_parse_model` и библиотеку `FuzzyWuzzy` для нечеткого сопоставления строк.

## Требования

| Название | Версия |
| --- | --- |
| **`Python`** | `>=3.6` |
| **`spaCy`** | `>=3.7.4,<3.8.0` |
| **`FuzzyWuzzy`** | `0.18.0` |
| **`ru_cv_parse_model`** | `1.0.0` |

## Установка

Для установки введи в командной строке следующую команду:
```bash
pip install ru_parser_cv
```

## Использование

```python
import ru_parser_cv

text = 'Терехов Денис Иванович, Полная занятость, Полный день, от 65 000 руб., +7 (ХХХ) ХХХ-ХХ-ХХ, email@gmail.com, Российская Федерация, г. Москва, Возможен, Высшее, 15 марта 1985 (37 лет), Мужской, Женат (есть дети), 2012 — настоящее время (10 лет), Руководитель кадровой службы, ООО "ПримаМедика", г. Москва, Кадровый аудит, восстановление и ведение кадрового учета, оптимизация бизнес-процессов, связанных с документооборотом, Ведение кадрового учета в полном объеме, создание и ведение персонала, создание и частичное ведение табеля учета рабочего времени, расчет заработной платы, больничных, отпускных, КНО, Успешное прохождение проверок ГИТ, ФСС, ПФР, Роспотребнадзора, Участие в организации учебной деятельности, лицензирование образовательной деятельности, лицензирования медицинской деятельности, 2009 — 2012 (3 года), Директор по персоналу, ООО «Панацея Клиник», г. Москва, Директор по персоналу в единственном лице, Восстановление и ведение кадрового учета в полном объеме, Построение системы работы с персоналом, создание системы адаптации медицинского персонала, Юридическое обеспечение работы организации с персоналом, консультации по досудебному ведению дел юридическим лицом, Организация подбора и обучения персонала, организация обучения врачей, Организация работы подразделений, взаимодействия кадровой службы и бухгалтерии, табелирование, курирование взаимодействия с ГИТ, прохождение проверок, Поиск персонала на все позиции, Московский городской педагогический университет, г. Москва, 2008 (14 лет назад), Юридический (гражданско-правовая специализация), Юрист, Очная, Аналитика для HR, Институт профессионального кадровика, г. Москва, 2017 (5 лет назад), Английский - базовые знания, MS Office, Консультант (серебряный сертификат), Гарант, 1С ЗиК, КА, ЗУП 7.7, 8.1, 8.2, 8.3), AcOpen, Есть (В).TabError'

output = ru_parser_cv.process_text(text)
print(output)

"""
ФИО: Терехов Денис Иванович
Пол: Мужской
Возраст: 37 лет
Опыт работы:
Компании: ООО "ПримаМедика", ООО «Панацея Клиник»
Должности: Руководитель кадровой службы, Директор по персоналу
Периоды работы: 2012 — настоящее время, 2009 — 2012
Образование: Московский городской педагогический университет
"""

filter_orgs = ['ООО "ПримаМедика"']

output = ru_parser_cv.process_text(text, filter_orgs)
print(output)

"""
Связь с нежелательными организациями: ['ООО "ПримаМедика"']
"""

ru_parser_cv.save_json_ents(text, 'out_ents.json')

"""
json
{
    "ents": [
        {
            "content": "Связь с нежелательными организациями: ['ООО \"ПримаМедика\"']"
        }
    ]
}
"""

filter_orgs = ['ООО "ПримаМедика"']

ru_parser_cv.save_json_ents(text, 'filter_out_ents.json', filter_orgs)

"""
json
{
    "ents": [
        {
            "content": "Терехов Денис Иванович",
            "label": "fio"
        },
        {
            "content": "37 лет",
            "label": "age"
        },
        {
            "content": "Мужской",
            "label": "gender"
        },
        {
            "content": "2012 — настоящее время",
            "label": "work_date"
        },
        {
            "content": "Руководитель кадровой службы",
            "label": "title"
        },
        {
            "content": "ООО \"ПримаМедика\"",
            "label": "org"
        },
        {
            "content": "2009 — 2012",
            "label": "work_date"
        },
        {
            "content": "Директор по персоналу",
            "label": "title"
        },
        {
            "content": "ООО «Панацея Клиник»",
            "label": "org"
        },
        {
            "content": "Московский городской педагогический университет",
            "label": "education"
        }
 
"""

```

# license: Apache License, Version 2.0
# copyright: (c) 2024, Dmitry Batrov
