Каким будет самый простой способ получить все статьи о людях из Википедии? Я знаю, что могу загрузить свалку всех страниц, но как я могу их фильтровать и получать только те, что есть у людей? Мне нужно столько, сколько я могу получить (желательно более миллиона), поэтому использование какого-либо API, вероятно, не является вариантом.
Как я могу получить все статьи о людях из Википедии?
Ответ 1
Поскольку статьи о людях обычно содержат шаблон Persondata, вы можете просто искать все статьи, содержащие Persondata. Вы можете найти пример API-запроса для этого:
Ответ 2
По состоянию на 2014 год у вас есть еще один вариант: Query WikiData для всех объектов, где свойство instance of
(P31) имеет значение human
(Q5).
Полный список людей: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
Из этого списка отфильтруйте любую вещь, которая не имеет sex or gender
(P21), чтобы избавиться от таких страниц, как "ученый"
Таким образом, вам не нужно отслеживать, какие шаблоны используются для людей во всех разных языковых версиях (есть 285) Википедии.
Ответ 3
Если вы собираетесь самостоятельно развернуть, в основном вам нужно сосредоточиться на " инфобоксах данных" в дампе XML.
Ссылка: http://code.google.com/p/infobox2rdf/
Или вы также можете проверить http://www.freebase.com или http://dbpedia.org