Подтвердить что ты не робот

Как мусоры craigslist получают данные?

Я занимаюсь исследовательской работой в агрегаторах контента, и мне любопытно, как некоторые из современных агрегаторов craigslist получают данные в свои гибридные файлы.

Например, www.housingmaps.com и теперь закрытый www.chicagocrime.org

Если URL-адрес, который можно использовать для ссылки, будет идеальным!

4b9b3361

Ответ 1

Продолжая исследовать эту область, я нашел потрясающий сайт, который частично меня интересует:

Crazedlist

Он использует HTTPReferer клиентского браузера, что интересно, но не идеально. Автор сайта также утверждает, что на CL, как я понимаю, по-королевски отмечен. Это также дает ясный пример деловой необходимости, которая похожа на мои потребности, и почему меня интересует эта тема.

Ответ 2

Для AdRavage.com Я использую комбинацию RSS-кода Magpie (для извлечения данных, возвращаемых из поисков), и пользовательский класс очистки экрана для правильного заполнять информацию о городе/категории, используемую при поиске.

Например, чтобы извлечь категории, которые вы могли:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

Ответ 3

Альтернативой очистке (и блокировке), использованию фреймов или поиску Google является использование брокера данных или службы обмена данными.

3taps - это бета-служба, предоставляющая API-интерфейс разработчика для многих служб, включая Craigslist. Их команда также построила Craiggers, чтобы продемонстрировать пример использования этого API. Основатель Грег Кидд сказал мне, что 3taps собирает данные Craigslist из источников, отличных от Craigslist, где он уже проиндексирован и кэширован, чтобы он не нагружал Craigslist. Другие источники данных 3taps также перечислены, но эти данные не дают понять, поддерживаются ли они в настоящее время. Их цель - демократизировать обмен данными.

80legs - это служба обхода, которая обеспечивает менее реальный, но потенциально более всеобъемлющий вариант. Их служба с дампским сервисом включает пакеты обхода для сайтов сотен сайтов, включая Amazon, Facebook и Zillow (в настоящий момент я не считаю Craigslist). Их новые усилия Datafiniti предоставляют поисковую систему для этого типа данных.

Ответ 4

Проблема с любым скреблемным решением Craigslist заключается в том, что они автоматически блокируют любой IP-адрес, который обращается к ним "слишком много", что обычно означает более чем несколько сотен раз в день. Поэтому, как только ваш инструмент получит какую-либо популярность, он будет закрыт.

Вот почему единственные поисковые сайты Craigslist, которые продолжались, либо используют фреймы (например, searchtempest.com и crazedlist.org), либо google (например, allofcraigs.com).

Что такое 3taps, это собрать список craigslist из сторонних источников "в дикой природе" - например, такие как кеши Google и Bing.

Изменить: этот ответ больше не обновляется. Большинство поисковых систем объявлений, которые включают результаты Craigslist, теперь используют Google Custom Search или аналогичные решения от Yahoo или Bing. SearchTempest использует оба. Allofcraigs теперь adhuntr и использует Google. Crazedlist отключился.

Ответ 5

Альтернативным вариантом было бы использовать трубки YQL или Yahoo для сбора результатов.

Craiglook и HousingMaps используют их для сбора результатов

Ответ 6

Я сделал много агрегации данных с таких сайтов, как eBay, Craigslist и Zillow. Каждый источник требует другого метода для агрегирования данных.

Для Craigslist я получил данные с помощью RSS-каналов. Мне нужны только конкретные данные в определенных категориях в определенных городах, и RSS-каналы отлично работали для меня. Если вы пытаетесь получить все данные, и вы злоупотребляете RSS-каналами, Craigslist, скорее всего, запретит вам. Кроме того, вы не сможете получить все данные из кормов Craigslist, потому что в каналах отображается большинство данных, но не все. Если ваша надежность не должна быть на 100%, тогда RSS - это самый простой способ сделать это.

Ответ 7

Я угадываю скребок экрана

Я не думаю, что есть API Craigslist еще.. и я не думаю, что они выпустят один из них.

так что единственный способ пойти - это очистить данные. Вы можете использовать библиотеку cURL и перетаскивать регулярное выражение, чтобы очистить данные, которые вы хотите от страницы

если вы видите ссылку.. доступ к странице.. очистить новую страницу получить данные и показать их или сохранить их

и т.д.