Я загрузил дамп Википедии, и я хочу преобразовать формат вики в свой формат объекта. Есть ли доступный wiki-парсер, который преобразует объект в XML?
Парсер для Википедии
Ответ 1
См. java-wikipedia-parser. Я никогда не использовал его, но в соответствии с документами:
В парсере есть HTML-код генератор. Однако вы можете вывод, который генерируется прохождение вашей собственной реализации
be.devijver.wikipedia.Visitor
интерфейс.
Ответ 2
Я не знаю, как именно выглядит XML-формат википедии. Но, если часть текста находится в разметке Википедии, я предлагаю исследовать http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Это один из классов пакета Wikipedia для apache lucene. Я не использовал его, но apache lucene - довольно зрелый проект, поэтому стоит попробовать его - в этом случае экспериментальный - пакет.
Ответ 3
Анализатор JWPL анализирует структуру текста с разметкой MediaWiki и представляет его как объект Java. Это позволяет осуществлять структурированный доступ к содержимому, например. Википедия или Викисловарь. Отдельного выпуска синтаксического анализа нет, поскольку он является частью выпуска JWPL Wikipedia API. Однако его можно использовать совершенно без доступа к Википедии с JWPL.
Ответ 4
Это может помочь: страницу с конвертерами из mediawiki в другие форматы, включая docbook. Docbook - это стандартный формат на основе XML, который может соответствовать вашим потребностям (представление содержимого медиавика xml)
Ответ 5
Вы можете использовать широкий спектр инструментов для анализа содержимого. Все языки script имеют модули. Например, язык Perl имеет Text:: Markup:: Trac, который является синтаксическим синтаксисом синтаксиса Trac для Text:: Markup. Он генерирует HTML файл.
Ответ 6
Wiki Parser преобразует дампы Википедии в анализируемый XML. Возможно, именно то, что вам нужно.
Ответ 7
u может попробовать wikiprep it perl wikipedia parser проверить его
выводит много файлов, некоторые из которых
1- wikipedia анализируется в XML 2- файл cat-hier, содержащий иерархию категорий википедии
Я пробовал, и это очень полезно это единственная проблема, которая требует высокой памяти, доступной для обработки, скорее всего, более 4 ГБ RAM также вы можете скачать предварительно подготовленную версию XML из здесь, которая также доступна на странице