Есть ли какая-либо библиотека, желательно в python, но, по крайней мере, с открытым исходным кодом, которая может суммировать и упрощать текст на естественном языке?
Суммировать текст или упростить текст
Ответ 1
Я не уверен, есть ли в настоящее время библиотеки, которые делают это, поскольку текстовое резюме или, по крайней мере, понятное текстовое обобщение не является чем-то, что легко выполнить простым подключи и играй библиотека.
Вот несколько ссылок, которые мне удалось найти в отношении проектов/ресурсов, связанных с обобщением текста, чтобы начать работу:
- Проект Lemur
- Набор инструментов для языка Python
- Книга O'Reilly по обработке естественного языка на Python
- Ресурс Google для обработки естественного языка
- Учебное пособие: как создать резюме резюме ключевых слов в Python
Надеюсь, что помогает:)
Ответ 2
Возможно, вы можете попробовать sumy. Это довольно маленькая библиотека, которую я написал в Python. Внедрены подходы Луна и Эдмундсона, методы LSA, алгоритмы SumBasic, KL-Sum, LexRank и TextRank. Это Apache2 лицензируется и поддерживает чешский, словацкий, английский, французский, японский, китайский, португальский, испанский и немецкий языки.
Не стесняйтесь открыть проблему или отправить запрос на перенос, если есть что-то, что вам не хватает.
Ответ 3
Мне тоже нужно было то же самое, но я не мог найти ничего в Python, который помог мне получить Comprehensive.
Итак, я нашел эту веб-службу очень полезной, и у них есть бесплатный API, который дает результат JSON, и я хотел поделиться это с вами.
Посмотрите здесь: http://smmry.com
Ответ 4
Не python, но MEAD будет выполнять текстовое резюме (это в Perl). Обычно то, что выходит, понятно, если не всегда особенно бегло звучание. Также проверьте summarization.com для получения большой информации о задаче суммирования текста.
Ответ 5
Попробуйте Open Text Summarizer, который выпущен под лицензией открытого источника GPL. Он работает достаточно хорошо, но с 2007 года не было никаких разработок.
Исходный код написан на C (как в библиотеке, так и в командной строке), но на нем есть обертки на нескольких языках:
Ответ 6
Взгляните на статью которая подробно изучает эти методы и пакеты:
- Lex_rank (sumy)
- LSA (sumy)
- Лунь (сумы)
- PyTeaser
- Gensim TextRank
- PyTextRank
- Google TextSum
В конце статьи написано 'summary'.
Автор sumy @miso.belica дал описание в ответе выше.
Различные другие методы ML поднялись, например Facebook/NAMAS и Google/TextSum, но по-прежнему требуется обширная подготовка в наборе данных Gigaword и около 7000 Часы GPU. Сам набор данных довольно дорогостоящий.
В заключение я бы сказал, что sumy - лучший вариант на рынке прямо сейчас, если у вас нет доступа к высокопроизводительным машинам. Большое спасибо @miso.belica за этот замечательный пакет.
Ответ 7
A назад, я написал библиотеку обобщений для python, используя NLTK, используя алгоритм библиотеки Classifier4J. Это довольно просто, но это может удовлетворить потребности любого, кто нуждается в сводке: https://github.com/thavelick/summarize