NLP-разработчик на Python

К себе в lab.alexkuk.ru ищу разработчика. Задача извлечения сущностей из текстов судебных актов: имена судей, участников, представителей, суть иска. Используется технология "Наташа".

Есть 50 000 000 pdf-документов из российских судов (пример pdf-а, больше на kad.arbitr.ru). Для подготовки к заседанию, юрист просматривает практику по аналогичным делам. Архив pdf-документов нужно фильтровать по имени судьи, ссылкам на законы и массе других критериев.

Есть крупный клиент, который хочет сделать сервис, основанный на этих данных, исправить проблемы существующих решений, добавить магию машинного обучения.

Сейчас есть альфа-версия сервиса, нужно править баги, которые приходят от заказчика, добавлять новую функциональность.

Задачи:

Разработка, поддержка грамматик для Yargy-парсера.
Создание, отладка статистических моделей. Иногда не получается извлечь сущности с помощью правил, тогда используются простые CRF-модели. Может быть, стоит перейти на что-то посложнее.
Тестирование качества, починка багов.
Разработка и поддержка веб-сервиса с REST-API.
Оптимизация скорости обработки. Нужно чтобы сервис периодически обрабатывал 50 000 000 дел из архива и ежедневно парсил несколько тысяч новых дел.

Необходимые навыки:

Хорошее знание Python, опыт работы с Git.
Опыт обработки текстов на естественном языке. Плюсом будет опыт использования Томита-парсера или Yargy-парсера, представление об ML-алгоритмах для обработки текста.
Плюсом будет опыт создания несложных веб-сервисов.

Работа удалённая. Возможна частичная занятость. Нужно будет сделать тестовую задачу. Советую заранее посмотреть, она даёт хорошее представление о том, чем нужно будет заниматься. Рассказ о себе и вашем опыте, пожалуйста, присылайте на alex@alexkuk.ru.

kuk/vacancy.md

Select an option

No results found

Select an option

No results found

NLP-разработчик на Python