Парсер для Википедии

Я загрузил дамп Википедии, и я хочу преобразовать формат вики в свой формат объекта. Есть ли доступный wiki-парсер, который преобразует объект в XML?

Ответ 1

См. java-wikipedia-parser. Я никогда не использовал его, но в соответствии с документами:

В парсере есть HTML-код генератор. Однако вы можете вывод, который генерируется прохождение вашей собственной реализации be.devijver.wikipedia.Visitorинтерфейс.

Ответ 2

Я не знаю, как именно выглядит XML-формат википедии. Но, если часть текста находится в разметке Википедии, я предлагаю исследовать http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Это один из классов пакета Wikipedia для apache lucene. Я не использовал его, но apache lucene - довольно зрелый проект, поэтому стоит попробовать его - в этом случае экспериментальный - пакет.

Ответ 3

Анализатор JWPL анализирует структуру текста с разметкой MediaWiki и представляет его как объект Java. Это позволяет осуществлять структурированный доступ к содержимому, например. Википедия или Викисловарь. Отдельного выпуска синтаксического анализа нет, поскольку он является частью выпуска JWPL Wikipedia API. Однако его можно использовать совершенно без доступа к Википедии с JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser

Ответ 4

Это может помочь: страницу с конвертерами из mediawiki в другие форматы, включая docbook. Docbook - это стандартный формат на основе XML, который может соответствовать вашим потребностям (представление содержимого медиавика xml)

Ответ 5

Вы можете использовать широкий спектр инструментов для анализа содержимого. Все языки script имеют модули. Например, язык Perl имеет Text:: Markup:: Trac, который является синтаксическим синтаксисом синтаксиса Trac для Text:: Markup. Он генерирует HTML файл.

Ответ 6

Wiki Parser преобразует дампы Википедии в анализируемый XML. Возможно, именно то, что вам нужно.

Ответ 7

u может попробовать wikiprep it perl wikipedia parser проверить его

выводит много файлов, некоторые из которых

1- wikipedia анализируется в XML 2- файл cat-hier, содержащий иерархию категорий википедии

Я пробовал, и это очень полезно это единственная проблема, которая требует высокой памяти, доступной для обработки, скорее всего, более 4 ГБ RAM также вы можете скачать предварительно подготовленную версию XML из здесь, которая также доступна на странице