Очень интересная, на мой взгляд, NLP библиотека. По заверению авторов это SOTA решение для ряда NLU задач, таких как (Чтобы не путать переводом, названия на английском): Named Entity Recognition (NER), Entity Mention Detection (EMD), Relation Extraction (ER), Coreference Resolution (CR).
Именованные сущности (NE) это обычно нахождение имён собственных.
EMD - немного сложнее, когда нам нужно выявить действующие лица, это могут быть некоторые объекты, или живые существа. Задача усложняется тем, что некоторые сущности могут быть представлены в виде нескольких слов.
Например:
*The project leader* is refusing to help. - В этом предложении The project leader это одна сущность
Извлечение зависимостей (RE)
Когда сущности были найдены, дальше можно найти связи между ними.
И последняя, самая интересная часть, разрешение кореференций (CR)
Корефере́нтность - это когда одно и большевыражениее в тексте ссылается наоднуу и туже сущность (см https://en.wikipedia.org/wiki/Coreference)
несколько примеров
*The music* was so loud that *it* couldn't be enjoyed.
*Our neighbors* dislike the music. If *they* are angry, the cops will show up soon
Так вот библиотека справляется с некоторыми задачами, но всё-таки делает достаточно много ошибок. Можете сами попробовать веб-версию. Обратите внимание, что все эти задачи решаются с помощью одной архитектуры сети.
https://huggingface.co/hmtl/
исходный код и ссылка на статью доступны здесь https://github.com/huggingface/hmtl
https://t.me/tj4me/109