Подтвердить что ты не робот

Как получить данные Infobox из Википедии?

Если у меня есть URL-адрес страницы, как я могу получить информацию Infobox справа, используя веб-службы MediaWiki?

4b9b3361

Ответ 1

Возможно, немного поздно, но я хотел того же и не видел никаких простых решений здесь, но (как указывает Брайан) оказывается, что не слишком сложно использовать API Mediawiki с этой библиотекой:

https://github.com/siznax/wptools

Использование:

>>> import wptools
>>> so = wptools.page('Stack Overflow').get_parse()
>>> so.infobox
{'alexa': '{{DecreasePositive}}',
 'author': '[[Joel Spolsky]] and [[Jeff Atwood]]',
 'caption': 'Screenshot of Qaru as of February 2015',
 'commercial': 'Yes',
 'content_license': '[[Creative Commons license|CC-BY-SA]] 3.0',
 'current status': 'Online',
 'landscape': 'yes',
 'language': 'English',
 'launch date': '{{start date and age|2008|9|15}}',
 'logo': 'Qaru logo.svg',
 'name': 'Stack Overflow',
 'owner': 'Stack Exchange, Inc.',
 'programming_language': '[[C Sharp (programming language)|C#]]',
 'registration': 'Optional; Uses [[OpenID]]',
 'revenue': '',
 'screenshot': 'Qaru homepage.png',
 'slogan': '',
 'type': '[[:Category:Knowledge markets|Knowledge markets]]',
 'url': '{{URL|https://stackoverflow.com}}'}

Ответ 2

Я просто хочу разобрать инфобокс или вы хотите получить некоторые переваренные данные, посмотрите проект DBPedia: http://dbpedia.org

Он сканирует инфобокс в WP для создания базы данных RDF из Википедии: https://github.com/dbpedia/extraction-framework/

Ответ 3

Нет никакого тривиального способа сделать это. Вы можете попробовать получить содержимое страницы, используя action=raw, т.е. http://en.wikipedia.org/w/index.php?action=raw&title=Douglas_Jardine Затем найдите начало инфобокса, выполнив поиск {{Infobox. Затем найдите конец, найдя соответствующий }}, принимая во внимание, что сам инфобокс также может содержать пары {{ - }} и {{{ - }}}.

Ответ 4

Tomxu - то, о чем вы говорите, является шаблоном - это простая страница, которую вы можете включить на другой странице. Для инфобокса вам нужно начать с просмотра Template:Infobox. Это дает вам подробные инструкции.

Вы также можете нажать править (или просмотреть код) и скопировать содержимое в свою собственную вики. Имейте в виду, что шаблоны, как правило, находятся в иерархии, поэтому вам может потребоваться скопировать другие шаблоны, которые использует Infobox (если вы хотите их использовать). Каждый шаблон можно идентифицировать с помощью {{}}, т.е. шаблон Infobox будет выглядеть так: {{Infobox}}.

Я упомянул иерархию: на самом деле вы найдете несколько шаблонов, в которых все будут использовать Template: Infobox. Чтобы найти их, просто введите это в поле поиска в Википедии: Шаблон: Инфобокс, а затем вы найдете несколько примеров, например. Шаблон: писатель Infobox

Обновление:, если вы имеете в виду Navboxes, затем см. эту информацию.

Ответ 5

Каждая страница Википедии связана с элементом Wikidata, и все эти элементы включают в себя большинство параметров со страниц шаблонов Infobox на странице Википедии. Поэтому вам нужно только получить доступ к данным, связанным со своей страницей в Википедии, из API Викидата.

Пример того, как получить данные для Wikipedia Страница Дональда Трампа из Элемент Wikidata:

https://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&props=claims&titles=Donald Trump

В ответе будут указаны: дата и место рождения, изображение, религия, мать, отец, дети, высота, подпись, официальный сайт и т.д., вся основная информация о Дональде Трампе включена в Википедию Infobox.

Ответ 6

В нашем проекте мы используем запросы для извлечения данных из wiktionary следующим образом:

http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fen.wiktionary.org%2Fwiki%2Flife%22%20and%20xpath%3D'%2F%2Fdiv%5B%40id%3D%22bodyContent%22%5D'&format=xml&diagnostics=false&env=store%3A%2F%2Fdatatables.org%2Falltableswithkeys&callback=recwiki

У меня нет полного понимания этого, но он работает. Результат вывода можно отфильтровать, используя jquery или что-то еще.

Ответ 7

Как использовать режим редактирования? Вы можете просто начать с правильной TextArea (большая часть времени содержит id="wpTextBox1") и проанализировать содержимое этой TextArea... URL, который я использовал, чтобы найти это, был (Примечание: section = 0):

https://de.wikipedia.org/w/index.php?title=Pelephone&action=edit&section=0

Привет

Ответ 8

Используя MediaWiki, вы можете просмотреть инфобокс справа от страницы Википедии, используя эту ссылку ниже. Как видите, формат находится в JSON (может быть изменен), и, изменив слово "водород" на конкретный заголовок, который вы хотите, вы получите страницу с инфобоксами.

https://en.wikipedia.org/w/api.php?action=parse&page=Template:Infobox%20hydrogen&format=json