Список "Остановить слова" для английского?

Я генерирую некоторую статистику для некоторого текста на английском языке, и я бы хотел пропустить неинтересные слова, такие как "a" и "the".

Где можно найти некоторые списки этих неинтересных слов?
Является ли список этих слов таким же, как список наиболее часто используемых слов на английском языке?

update: они, по-видимому, называются "стоп-словами", а не "пропускать слова".

Ответ 1

Волшебное слово, которое нужно положить в Google, - "стоп слова". Это превратит разумный список.

MySQL также имеет встроенный список стоп-слов, но это слишком сложно для моих вкусов. Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считался стоп-словом.

Ответ 2

они называются остановить слова, проверьте этот пример

Ответ 3

В зависимости от субдомена английского языка, в котором вы работаете, вы можете/хотите составить свой собственный список стоп-слов. Некоторые общие слова остановки могут иметь смысл в домене. Например. Слово "есть" может быть аббревиатурой/сокращением в некотором домене. И наоборот, вы можете игнорировать некоторые относящиеся к домену слова в зависимости от вашего приложения, которое вы, возможно, не захотите игнорировать в домене общего английского. Например. Если вы анализируете корпус отчетов о больницах, вы можете игнорировать такие слова, как "история" и "симптомы", поскольку они будут найдены в каждом отчете и могут оказаться нецелесообразными (с простой перспективы ванильного инвертированного индекса).

В противном случае списки, возвращаемые Google, должны быть в порядке. Портер-стэммер использует это, а реализация движка Lucene-seach использует этот.

Ответ 4

Получить статистику частоты слов в больших корпусах txt. Игнорировать все слова с частотой > некоторое число.

Ответ 5

Я думаю, что я использовал список заметок для немецкого языка из здесь, когда я создал поисковое приложение с lucene.net некоторое время назад. На сайте также есть список для английского языка, а списки на сайте - это те, которые проект lucene использует по умолчанию.

Ответ 6

Обычно эти слова появляются в документах с самой высокой частотой. Предполагая, что у вас есть глобальный список слов:

{ Word Count }

Со списком слов, если вы заказывали слова от наивысшего счета до самого низкого, у вас будет график (count (ось y) и слово (ось x), которое является функцией обратного журнала. слова были бы слева, а точка остановки "стоп-слов" была бы там, где существует высшая 1-я производная.

Это решение лучше, чем попытка словаря:

Это решение является универсальным подходом, не связанным с языком
Эта попытка узнает, какие слова считаются "стоп-словами".
Эта попытка даст лучшие результаты для очень похожих коллекций и создаст уникальные списки слов для элементов в коллекциях.
Стоп-слова могут быть пересчитаны позднее (с этим может быть кеширование и статистическое определение того, что слова остановки могут измениться с момента их вычисления)
Это также позволяет исключить временные или неформальные слова и имена (например, сленг или если у вас есть куча документов, в которых заголовок был назван компанией)

Словарь лучше:

Время поиска намного быстрее
Результаты преследуются
Простой
Некоторые другие придумали стоп-слова.