Если у меня есть URL-адрес страницы, как я могу получить информацию Infobox справа, используя веб-службы MediaWiki?
Как получить данные Infobox из Википедии?
Ответ 1
Возможно, немного поздно, но я хотел того же и не видел никаких простых решений здесь, но (как указывает Брайан) оказывается, что не слишком сложно использовать API Mediawiki с этой библиотекой:
https://github.com/siznax/wptools
Использование:
>>> import wptools
>>> so = wptools.page('Stack Overflow').get_parse()
>>> so.infobox
{'alexa': '{{DecreasePositive}}',
'author': '[[Joel Spolsky]] and [[Jeff Atwood]]',
'caption': 'Screenshot of Qaru as of February 2015',
'commercial': 'Yes',
'content_license': '[[Creative Commons license|CC-BY-SA]] 3.0',
'current status': 'Online',
'landscape': 'yes',
'language': 'English',
'launch date': '{{start date and age|2008|9|15}}',
'logo': 'Qaru logo.svg',
'name': 'Stack Overflow',
'owner': 'Stack Exchange, Inc.',
'programming_language': '[[C Sharp (programming language)|C#]]',
'registration': 'Optional; Uses [[OpenID]]',
'revenue': '',
'screenshot': 'Qaru homepage.png',
'slogan': '',
'type': '[[:Category:Knowledge markets|Knowledge markets]]',
'url': '{{URL|https://stackoverflow.com}}'}
Ответ 2
Я просто хочу разобрать инфобокс или вы хотите получить некоторые переваренные данные, посмотрите проект DBPedia: http://dbpedia.org
Он сканирует инфобокс в WP для создания базы данных RDF из Википедии: https://github.com/dbpedia/extraction-framework/
Ответ 3
Нет никакого тривиального способа сделать это. Вы можете попробовать получить содержимое страницы, используя action=raw
, т.е. http://en.wikipedia.org/w/index.php?action=raw&title=Douglas_Jardine
Затем найдите начало инфобокса, выполнив поиск {{Infobox
. Затем найдите конец, найдя соответствующий }}
, принимая во внимание, что сам инфобокс также может содержать пары {{
- }}
и {{{
- }}}
.
Ответ 4
Tomxu - то, о чем вы говорите, является шаблоном - это простая страница, которую вы можете включить на другой странице. Для инфобокса вам нужно начать с просмотра Template:Infobox. Это дает вам подробные инструкции.
Вы также можете нажать править (или просмотреть код) и скопировать содержимое в свою собственную вики. Имейте в виду, что шаблоны, как правило, находятся в иерархии, поэтому вам может потребоваться скопировать другие шаблоны, которые использует Infobox (если вы хотите их использовать). Каждый шаблон можно идентифицировать с помощью {{}}, т.е. шаблон Infobox будет выглядеть так: {{Infobox}}.
Я упомянул иерархию: на самом деле вы найдете несколько шаблонов, в которых все будут использовать Template: Infobox. Чтобы найти их, просто введите это в поле поиска в Википедии: Шаблон: Инфобокс, а затем вы найдете несколько примеров, например. Шаблон: писатель Infobox
Обновление:, если вы имеете в виду Navboxes, затем см. эту информацию.
Ответ 5
Каждая страница Википедии связана с элементом Wikidata, и все эти элементы включают в себя большинство параметров со страниц шаблонов Infobox на странице Википедии. Поэтому вам нужно только получить доступ к данным, связанным со своей страницей в Википедии, из API Викидата.
Пример того, как получить данные для Wikipedia Страница Дональда Трампа из Элемент Wikidata:
https://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&props=claims&titles=Donald Trump
В ответе будут указаны: дата и место рождения, изображение, религия, мать, отец, дети, высота, подпись, официальный сайт и т.д., вся основная информация о Дональде Трампе включена в Википедию Infobox.
Ответ 6
В нашем проекте мы используем запросы для извлечения данных из wiktionary следующим образом:
http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fen.wiktionary.org%2Fwiki%2Flife%22%20and%20xpath%3D'%2F%2Fdiv%5B%40id%3D%22bodyContent%22%5D'&format=xml&diagnostics=false&env=store%3A%2F%2Fdatatables.org%2Falltableswithkeys&callback=recwiki
У меня нет полного понимания этого, но он работает. Результат вывода можно отфильтровать, используя jquery или что-то еще.
Ответ 7
Как использовать режим редактирования? Вы можете просто начать с правильной TextArea (большая часть времени содержит id="wpTextBox1"
) и проанализировать содержимое этой TextArea...
URL, который я использовал, чтобы найти это, был (Примечание: section = 0):
https://de.wikipedia.org/w/index.php?title=Pelephone&action=edit§ion=0
Привет
Ответ 8
Используя MediaWiki, вы можете просмотреть инфобокс справа от страницы Википедии, используя эту ссылку ниже. Как видите, формат находится в JSON (может быть изменен), и, изменив слово "водород" на конкретный заголовок, который вы хотите, вы получите страницу с инфобоксами.
https://en.wikipedia.org/w/api.php?action=parse&page=Template:Infobox%20hydrogen&format=json