Подтвердить что ты не робот

Как кодировать путь зависимости как функцию для классификации?

Я пытаюсь реализовать изложение отношений между парами глаголов. Я хочу использовать путь зависимости от одного глагола к другому как функцию для моего классификатора (предсказывает, существует ли отношение X или нет). Но я не уверен, как кодировать путь зависимости как функцию. Ниже приведены некоторые примеры путей зависимостей, поскольку аннотации отношений, разделенных пространством, от Collandered Dependencies от StanfordCoreNLP:

nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of

Важно иметь в виду, что этот путь имеет переменную длину, а отношение может повторно отображаться без каких-либо ограничений.

Два компрометирующих способа кодирования этой функции, которые приходят мне на ум:

1) Игнорируйте последовательность и просто используйте одну функцию для каждого отношения, ее значение будет числом раз, которое оно появляется на пути

2) Имеют скользящее окно длины n и имеют одну особенность для каждой возможной пары отношений со значением, являющимся числом раз, когда эти два отношения появлялись последовательно. Я предполагаю, что это так, как один кодирует n-граммы. Тем не менее, число возможных отношений составляет 50, а это значит, что я не могу пойти с этим подходом.

Любые предложения приветствуются.

4b9b3361

Ответ 1

У нас был проект, построивший классификатор на основе путей зависимостей. Я спросил члена группы, который разработал систему, и он сказал:

  • индикатор для всего пути

    Итак, если у вас есть точка данных обучения (verb1 -e1- > w1 -e2- > w2 -e3- > w3 -e4- > verb2, отношение 1), функция будет (e1-e2-e3-e4)

  • И он также выполнял последовательности ngram, поэтому для этой же точки данных вы также имели бы (e1), (e2), (e3), (e4), (e1-e2), (e2-e3), (e3-e4), (e1-e2-e3), (e2-e3-e4)

    Он также рекомендовал свернуть аппетитные края, чтобы уменьшить пути.

Кроме того, я должен отметить, что он разработал набор правил высокой точности для каждого отношения и использовал это для создания большого набора данных обучения.