Суммировать текст или упростить текст

Есть ли какая-либо библиотека, желательно в python, но, по крайней мере, с открытым исходным кодом, которая может суммировать и упрощать текст на естественном языке?

Ответ 1

Я не уверен, есть ли в настоящее время библиотеки, которые делают это, поскольку текстовое резюме или, по крайней мере, понятное текстовое обобщение не является чем-то, что легко выполнить простым подключи и играй библиотека.

Вот несколько ссылок, которые мне удалось найти в отношении проектов/ресурсов, связанных с обобщением текста, чтобы начать работу:

Надеюсь, что помогает:)

Ответ 2

Возможно, вы можете попробовать sumy. Это довольно маленькая библиотека, которую я написал в Python. Внедрены подходы Луна и Эдмундсона, методы LSA, алгоритмы SumBasic, KL-Sum, LexRank и TextRank. Это Apache2 лицензируется и поддерживает чешский, словацкий, английский, французский, японский, китайский, португальский, испанский и немецкий языки.

Не стесняйтесь открыть проблему или отправить запрос на перенос, если есть что-то, что вам не хватает.

Ответ 3

Мне тоже нужно было то же самое, но я не мог найти ничего в Python, который помог мне получить Comprehensive.

Итак, я нашел эту веб-службу очень полезной, и у них есть бесплатный API, который дает результат JSON, и я хотел поделиться это с вами.

Посмотрите здесь: http://smmry.com

Ответ 4

Не python, но MEAD будет выполнять текстовое резюме (это в Perl). Обычно то, что выходит, понятно, если не всегда особенно бегло звучание. Также проверьте summarization.com для получения большой информации о задаче суммирования текста.

Ответ 5

Попробуйте Open Text Summarizer, который выпущен под лицензией открытого источника GPL. Он работает достаточно хорошо, но с 2007 года не было никаких разработок.

Исходный код написан на C (как в библиотеке, так и в командной строке), но на нем есть обертки на нескольких языках:

Ответ 6

Взгляните на статью которая подробно изучает эти методы и пакеты:

Lex_rank (sumy)
LSA (sumy)
Лунь (сумы)
PyTeaser
Gensim TextRank
PyTextRank
Google TextSum

В конце статьи написано 'summary'.

Автор sumy @miso.belica дал описание в ответе выше.

Различные другие методы ML поднялись, например Facebook/NAMAS и Google/TextSum, но по-прежнему требуется обширная подготовка в наборе данных Gigaword и около 7000 Часы GPU. Сам набор данных довольно дорогостоящий.

В заключение я бы сказал, что sumy - лучший вариант на рынке прямо сейчас, если у вас нет доступа к высокопроизводительным машинам. Большое спасибо @miso.belica за этот замечательный пакет.

Ответ 7

A назад, я написал библиотеку обобщений для python, используя NLTK, используя алгоритм библиотеки Classifier4J. Это довольно просто, но это может удовлетворить потребности любого, кто нуждается в сводке: https://github.com/thavelick/summarize