Подтвердить что ты не робот

Объяснение Wordnet SQL

Я пытаюсь запустить простую базу синонимов, поэтому я могу найти синонимы слов, введенных пользователем (ничего больше!). Для этого я схватил копию Wordnet sql thesarus (http://wnsql.sourceforge.net/), но теперь мне представлены все эти таблицы, и я не могу найти простой объяснение их содержания где угодно:

adjpositions
adjpositiontypes
casedwords
lexdomains
lexlinks
linktypes
morphmaps
morphs
postypes
samples
semlinks
senses
synsets
vframemaps
vframes
vframesentencemaps
vframesentences
words

Может кто-нибудь сказать мне, что эти таблицы содержат и которые мне нужны, поскольку я не могу расшифровать их содержимое на основе их данных.

4b9b3361

Ответ 1

WordNet - это супер классная база слов. Я сам это изучал. Я перечислил свои выводы ниже - и, надеюсь, это поможет вам лучше понять таблицы.

Таблица синхронизации Таблица synsets является одной из самых важных таблиц в базе данных. Он отвечает за размещение всех определений в WordNet. Каждая строка в таблице synset имеет synsetid, определение, pos (части речевого поля) и lexdomainid (которая ссылается на таблицу lexdomain) В базе данных WordNet имеется 117373 synsets.

Таблица слов WordNet также имеет таблицу слов, которая имеет только два поля: wordid и "lemma". Таблица слов отвечает за размещение всех лемм (базовых слов) в базе данных Wordnet. В этой таблице содержится 146625 записей.

Итак, как связаны эти две таблицы? Ответ? Таблица чувств!

Таблица ощущений Таблица чувств отвечает за объединение слов (в таблице слов) с определениями (в таблице synset). Записи в таблице чувств называются "парными словами" - потому что каждое спаривание словаря с синтаксисом - это один полный смысл слова - "смысл слова".
В базе данных WordNet содержится в общей сложности 206 354 слова.

Таблица Lexdomains Таблица Lexdomains ссылается на таблицу чувств и используется для определения того, к какой лексической области принадлежит слово-смысл. В таблице lexdomains имеется 45 лексических доменов. Таким образом, таблица lexdomain является способом WordNets для "маркировки" пары слов. Однако он довольно ограничен, потому что пара слов-чувств может принадлежать только ОДНОЙ лексической области.

В 45 лексических доменах входят:

прилагательные: все, pert

Наречия все

Существительные вершина, акт, животное, артефакт, атрибут, тело, познание, общение, событие, чувство, еда, группа, место, мотив, объект, лицо, явление, растение, владение, процесс, количество, linkdef, форма, состояние, время,

Глаголы тело, изменение, познание, общение, конкуренция, потребление, контакт, создание, эмоция, движение, восприятие, владение, социальная, статическая, погода, ppl

Таблица casedwords Некоторые слова в таблице слов, естественно, имеют первую букву, заглавную, т.е.: "A-team". Так как таблица слов хранит все слова как строчные, WordNet использует эту таблицу, чтобы указать прописную версию слова. В этой таблице содержится 40313 записей.

В базе данных WordNet есть много других таблиц, как только я их изучу, я отправлю сообщение еще раз.

Поиск синонимов Чтобы ответить на ваш вопрос относительно синонимов - вам нужно сделать следующее.

Скажем, вы хотите найти синонимы для слова "Carry". Чтобы сделать это, вы должны сначала найти таблицу слов для леммы, соответствующей слову "переносить". Это дало бы слово 21333. Затем вы бы искали таблицу чувств, чтобы найти все слова-пары для слова переноса. Это дает 41 результат - каждый результат перечисляет wordid 21253, а также сенсей (который является индексом пары слов и чувств) и synsetid.

Теперь вам нужно будет запросить таблицу sync для каждого из возвращенных synsetid, чтобы вы могли получить доступ к соответствующему полю определения в таблице synset.

Наконец, чтобы найти синонимы для каждого из перечисленных в списке синтаксисов, вам просто нужно будет искать таблицу чувств для других пар чувств, которые разделяют один и тот же синт.

Пример: Ниже приведена одна из 41 пары слов-слов для слова "нести": wordsense example Если мы найдем определение этого синтаксиса 202083512, вы обнаружите, что "передаете или служат в качестве носителя для передачи"

Чтобы найти все синонимы этого определения, вы затем будете искать таблицу чувств для того же самого synsetid 202083512. Это дает синонимы: канал, поведение, передачу, передачу и передачу (обратите внимание: вам нужно будет вступить в таблицу слов, чтобы получить фактические леммы)

Надеюсь, это поможет вам демистифицировать WordNet.. Я нахожу, что это довольно круто...

Ответ 2

Пол Пребиш объяснил несколько основных таблиц, здесь приведены краткие пояснения для остальных:

adjositiontypes - определяет три позиции, которые прилагательные могут принимать на английском языке, предикате, атрибутивном и немедленном postnominal.

- связывает конкретные слова (прилагательные) с их допустимыми типами позиций в таблице adjocationtypes.

linktypes - определяет все отношения (ссылки), используемые в wordnet, около двух десятков из них. Обе таблицы lexlinks и semlinks используют эту таблицу для определения типа каждой ссылки. Некоторые типы ссылок отмечены как рекурсивные, что означает, что если "мебель" - это, например, гиперним для "стула", то "стул" - это гипоним на "мебель".

lexlinks - лексические ссылки, т.е. отношения между словами. Пример:
печаль - печаль (вывод)

semlinks - семантические ссылки, т.е. отношения между синхронизациями. Пример:
стул - мебель (гиперним)

морфы - подключен к таблице слов, содержит нерегулярные формы слова. Одно слово может иметь несколько морфов, а один морфинг может быть неправильной формой для нескольких слов, поэтому вы также имеете таблицу morphmaps. Примеры:
abacus (слово) - abaci (morph)
abhor (слово) - отвращение, отвращение (морфы)

postypes - определяет "части речи". Содержит только следующие значения:
n - существительное, v -verb, a - прилагательное, r - наречие, s - прилагательный спутник.

samples - примеры предложений для synsets. Одна синхронизация может иметь несколько выборок.

vframemaps и vframes - vframes определяют тип стандартных "шаблонов глаголов". Vframemaps связывает слова (глаголы) с соответствующими vframes, в которых они могут появляться.

vframesentancemaps и vframesentences - аналогично предыдущим двум таблицам, здесь у вас есть целые предложения в виде шаблонов глаголов.

Ответ 3

Чтобы правильно понять смысл различных терминов в Wordnet, вы должны прочитать обширную документацию . Для синонимов вам в первую очередь понадобится таблица synsets. Фактические таблицы базы данных в загруженном проекте описаны на странице .

Ответ 4

Я думаю, что эта цифра поможет вам демистифицировать WordnetDB.

this figure Я нашел его в /mysql-3.0.0-31-wn-31/doc/images. Для более четкого изображения вы можете выбрать tables-wordnet.png в этой папке.