Как получить веб-сайт favicon с PHP?

Я хочу получить, запросил веб-сайт favicon с PHP. Мне рекомендовали использовать сервис favicon Google, но он не работает. Я хочу сделать что-то самостоятельно, но не знаю, как использовать регулярное выражение.

Я нашел класс в Google, который работает в большинстве случаев, но имеет неприемлемую частоту ошибок. Вы можете посмотреть здесь: http://www.controlstyle.com/articles/programming/text/php-favicon/

Может кто-нибудь, пожалуйста, помогите мне в получении значка с помощью регулярного выражения, пожалуйста?


Ответ 1

Быстрая и грязная:

$url = 'http://example.com/';
$doc = new DOMDocument();
$doc->strictErrorChecking = FALSE;
$xml = simplexml_import_dom($doc);
$arr = $xml->xpath('//link[@rel="shortcut icon"]');
echo $arr[0]['href'];

Ответ 2

Используйте S2 service, предоставленный Google. Это так просто, как это


Скребуть это было бы намного проще, пытаясь сделать это самостоятельно.

Ответ 3

Похоже, http://www.getfavicon.org/?url=domain.com (FAQ) надежно сбрасывает значки веб-сайта. Я понимаю, что это сторонний сервис, но я считаю его достойной альтернативой сервису favicon Google.

Ответ 4

В соответствии с Wikipedia существует два основных метода, которые могут использоваться веб-сайтами для получения значка, полученного браузером. Первый, как сказал Стив, имеет значок, сохраненный как favicon.ico в корневом каталоге веб-сервера. Во-вторых, ссылка на значок с помощью тега HTML-ссылки.

Чтобы охватить все эти случаи, лучшей идеей было бы проверить наличие файла favicon.ico в первую очередь, а если его нет, найдите либо часть <link rel="icon", либо <link rel="shortcut icon" в источнике (ограничивается HTML-заголовком node), пока вы не найдете значок. Вам решать использовать ли регулярное выражение, или другой вариант поиска строк (не говоря уже о встроенных PHP-скриптах). Наконец, этот вопрос может вам помочь.

Ответ 5

Я делал что-то подобное, и я проверил это с кучей URL, и все, казалось, работали. URL-адрес не должен быть базовым URL

function getFavicon($url){
    # make the URL simpler
    $elems = parse_url($url);
    $url = $elems['scheme'].'://'.$elems['host'];

    # load site
    $output = file_get_contents($url);

    # look for the shortcut icon inside the loaded page
    $regex_pattern = "/rel=\"shortcut icon\" (?:href=[\'\"]([^\'\"]+)[\'\"])?/";
    preg_match_all($regex_pattern, $output, $matches);

        $favicon = $matches[1][0];

        # check if absolute url or relative path
        $favicon_elems = parse_url($favicon);

        # if relative
            $favicon = $url . '/' . $favicon;

        return $favicon;

    return false;

Ответ 6

Я реализовал собственный favicon-grabber, и я подробно описал использование в другом сообщении StackOverflow здесь: Получить значок favicon для веб-сайта с помощью JS

Спасибо, и дайте мне знать, если это вам поможет. Также приветствуется любая обратная связь.

Ответ 7

Первый метод, в котором мы можем искать его из fevicon.ico, если он найден, чем он будет отображаться еще не

        $header=  get_headers($path);
        if(preg_match("|200|", $header[0]))
            echo '<img src="'.$path.'">';
            echo "<span class=error>Not found</span>";

В другом методе вы можете искать значок и получать этот файл значков

$fevicon= getFavicon($website);
echo '<img src="http://www.'.$website.'/'.$fevicon.'">';
function getFavicon($site)
            $dom=new DOMDocument();

            for($i=0;$i < $links->length;$i++ )
                if($link->getAttribute('rel')=='icon'||$link->getAttribute('rel')=="Shortcut Icon"||$link->getAttribute('rel')=="shortcut icon")
            return  $fevicon;

Ответ 8

Смотрите этот ответ: fooobar.com/questions/396754/.... Это простой в использовании PHP-класс для получения URL-адреса favicon и его загрузки, а также информация о значении типа файла favicon или о том, как был найден значок (URL-адрес по умолчанию, <link> tag...):

require 'FaviconDownloader.class.php';
$favicon = new FaviconDownloader('https://code.google.com/p/chromium/issues/detail?id=236848');

    echo "Favicon found : ".$favicon->icoUrl."\n";

    // Saving favicon to file
    $filename = 'favicon-'.time().'.'.$favicon->icoType;
    file_put_contents($filename, $favicon->icoData);
    echo "Saved to ".$filename."\n\n";
} else {
    echo "No favicon for ".$favicon->url."\n\n";

FaviconDownloader Object
    [url] => https://code.google.com/p/chromium/issues/detail?id=236848
    [pageUrl] => https://code.google.com/p/chromium/issues/detail?id=236848
    [siteUrl] => https://code.google.com/
    [icoUrl] => https://ssl.gstatic.com/codesite/ph/images/phosting.ico
    [icoType] => ico
    [findMethod] => head absolue_full
    [error] => 
    [icoExists] => 1
    [icoMd5] => a6cd47e00e3acbddd2e8a760dfe64cdc

Ответ 9

Если вы хотите получить значок с определенного сайта, вам просто нужно извлечь favicon.ico из корня своего веб-сайта. Например:

$domain = "www.example.com";
$url = "http://".$domain."/favicon.ico";
$icondata = file_get_contents($url);

... you can now do what you like with the icon data

Ответ 10

Нашел эту тему... Я написал плагин WordPress, который включает в себя множество вариаций при извлечении значка. Поскольку существует много кода GPL: http://plugins.svn.wordpress.org/wp-favicons/trunk/

Он позволяет запускать сервер, на котором вы можете запросить значки с помощью запросов xml rpc, чтобы любой клиент мог запрашивать значки. У него есть плагиновая структура, поэтому вы можете попробовать google, getfavicon и т.д., Чтобы узнать, поставляет ли одна из этих сервисов что-либо. Если нет, то он переходит в режим выбора значка с учетом всех http-статутов (301/302/404) и лучше всего найти значок в любом месте. После этого он использует функции библиотеки изображений для проверки внутри файла, если это действительно изображение и какое изображение (иногда расширение является неправильным), и оно подключается, поэтому вы можете добавить после преобразования изображения или дополнительных функций в конвейер.

http-выборка делает некоторую логику вокруг того, что я вижу выше: http://plugins.svn.wordpress.org/wp-favicons/trunk/includes/server/class-http.php

но это только часть конвейера.

может стать довольно сложным, если вы погрузитесь в него.

Ответ 11

$url = 'http://thamaraiselvam.strikingly.com/';
$doc = new DOMDocument();
$doc->strictErrorChecking = FALSE;
$xml = simplexml_import_dom($doc);
$arr = $xml->xpath('//link[@rel="shortcut icon"]');
if (!empty($arr[0]['href'])) {
    echo "<img src=".$arr[0]['href'].">";
echo "<img src='".$url."/favicon.ico'>";

Ответ 12

Я немного изменил второй метод Vivek и добавил эту функцию, и он выглядит так:

        $fevicon= getFavicon($website);
        echo '<img src="'.path_to_absolute($fevicon,$website).'"></img>';

            function getFavicon($site)
            $dom=new DOMDocument();

            for($i=0;$i < $links->length;$i++ )
                if($link->getAttribute('rel')=='icon'||$link->getAttribute('rel')=="Shortcut Icon"||$link->getAttribute('rel')=="shortcut icon")
            return  $fevicon;

    // transform to absolute path function... 
    function path_to_absolute($rel, $base)
    /* return if already absolute URL */
    if (parse_url($rel, PHP_URL_SCHEME) != '') return $rel;
    /* queries and anchors */
    if ($rel[0]=='#' || $rel[0]=='?') return $base.$rel;
    /* parse base URL and convert to local variables:
       $scheme, $host, $path */
    /* remove non-directory element from path */
    $path = preg_replace('#/[^/]*$#', '', $path);
    /* destroy path if relative url points to root */
    if ($rel[0] == '/') $path = '';
    /* dirty absolute URL */
    $abs = "$host$path/$rel";
    /* replace '//' or '/./' or '/foo/../' with '/' */
    $re = array('#(/\.?/)#', '#/(?!\.\.)[^/]+/\.\./#');
    for($n=1; $n>0; $abs=preg_replace($re, '/', $abs, -1, $n)) {}
    /* absolute URL is ready! */
    return $scheme.'://'.$abs;


Конечно, вы называете это https://www.domain.tld/favicon/this_script.php?u=http://www.example.com Все еще не удается поймать все параметры, но теперь абсолютный путь разрешен. Надеюсь, что это поможет.

Ответ 13

PHP Grab Favicon

Это удобный способ с множеством параметров, чтобы получить значок из URL страницы.

Как это устроено

  1. Проверьте, если иконка уже существует локально или не требуется сохранение, если это так, верните путь и имя файла
  2. В противном случае загрузите URL и попробуйте сопоставить расположение значка с регулярным выражением.
  3. Если у нас есть совпадение, ссылка на фавикон станет абсолютной
  4. Если у нас нет значка сайта, мы пытаемся получить его в корневом домене.
  5. Если значок все еще отсутствует, мы случайным образом пробуем API Google, faviconkit и favicongrabber.
  6. Если значок должен быть сохранен, попробуйте загрузить URL-адрес значка
  7. При желании сохраните Фавикон в следующий раз и верните путь и имя файла

Таким образом, он объединяет оба способа: попробуйте получить Favicon со страницы, и если это не сработает, используйте службу "API", которая возвращает Favicon ;-)


function grap_favicon( $options=array() ) {

  // Ini Vars
  $url       = (isset($options['URL']))?$options['URL']:'gaffling.com';
  $save      = (isset($options['SAVE']))?$options['SAVE']:true;
  $directory = (isset($options['DIR']))?$options['DIR']:'./';
  $trySelf   = (isset($options['TRY']))?$options['TRY']:true;
  $DEBUG     = (isset($options['DEV']))?$options['DEV']:null;

  // URL to lower case
    $url = strtolower($url);

    // Get the Domain from the URL
  $domain = parse_url($url, PHP_URL_HOST);

  // Check Domain
  $domainParts = explode('.', $domain);
  if(count($domainParts) == 3 and $domainParts[0]!='www') {
    // With Subdomain (if not www)
    $domain = $domainParts[0].'.'.
  } else if (count($domainParts) >= 2) {
    // Without Subdomain
        $domain = $domainParts[count($domainParts)-2].'.'.$domainParts[count($domainParts)-1];
    } else {
      // Without http(s)
      $domain = $url;

    if($DEBUG=='debug')print('<b style="color:red;">Domain</b> #'[email protected]$domain.'#<br>');

    // Make Path & Filename
    $filePath = preg_replace('#\/\/#', '/', $directory.'/'.$domain.'.png');

    // If Favicon not already exists local
  if ( !file_exists($filePath) or @filesize($filePath)==0 ) {

    // If $trySelf == TRUE ONLY USE APIs
    if ( isset($trySelf) and $trySelf == TRUE ) {  

      // Load Page
      $html = load($url, $DEBUG);

      // Find Favicon with RegEx
      $regExPattern = '/((<link[^>]+rel=.(icon|shortcut icon|alternate icon)[^>]+>))/i';
      if ( @preg_match($regExPattern, $html, $matchTag) ) {
        $regExPattern = '/href=(\'|\")(.*?)\1/i';
        if ( isset($matchTag[1]) and @preg_match($regExPattern, $matchTag[1], $matchUrl)) {
          if ( isset($matchUrl[2]) ) {

            // Build Favicon Link
            $favicon = rel2abs(trim($matchUrl[2]), 'http://'.$domain.'/');

            // FOR DEBUG ONLY
            if($DEBUG=='debug')print('<b style="color:red;">Match</b> #'[email protected]$favicon.'#<br>');


      // If there is no Match: Try if there is a Favicon in the Root of the Domain
        if ( empty($favicon) ) { 
        $favicon = 'http://'.$domain.'/favicon.ico';

        // Try to Load Favicon
        if ( [email protected]($favicon) ) {

    } // END If $trySelf == TRUE ONLY USE APIs

    // If nothink works: Get the Favicon from API
    if ( !isset($favicon) or empty($favicon) ) {

      // Select API by Random
      $random = rand(1,3);

      // Faviconkit API
      if ($random == 1 or empty($favicon)) {
        $favicon = 'https://api.faviconkit.com/'.$domain.'/16';

      // Favicongrabber API
      if ($random == 2 or empty($favicon)) {
        $echo = json_decode(load('http://favicongrabber.com/api/grab/'.$domain,FALSE),TRUE);

        // Get Favicon URL from Array out of json data (@ if something went wrong)
        $favicon = @$echo['icons']['0']['src'];


      // Google API (check also md5() later)
      if ($random == 3) {
        $favicon = 'http://www.google.com/s2/favicons?domain='.$domain;

      if($DEBUG=='debug')print('<b style="color:red;">'.$random.'. API</b> #'[email protected]$favicon.'#<br>');

    } // END If nothink works: Get the Favicon from API

    // Write Favicon local
    $filePath = preg_replace('#\/\/#', '/', $directory.'/'.$domain.'.png');

    // If Favicon should be saved
    if ( isset($save) and $save == TRUE ) {

      //  Load Favicon
      $content = load($favicon, $DEBUG);

      // If Google API don't know and deliver a default Favicon (World)
      if ( isset($random) and $random == 3 and 
           md5($content) == '3ca64f83fdcf25135d87e08af65e68c9' ) {
        $domain = 'default'; // so we don't save a default icon for every domain again

        // FOR DEBUG ONLY
        if($DEBUG=='debug')print('<b style="color:red;">Google</b> #use default icon#<br>');


      // Write 
      $fh = @fopen($filePath, 'wb');
      fwrite($fh, $content);

        if($DEBUG=='debug')print('<b style="color:red;">Write-File</b> #'[email protected]$filePath.'#<br>');

    } else {

      // Don't save Favicon local, only return Favicon URL
      $filePath = $favicon;

    } // END If Favicon not already exists local

    if ($DEBUG=='debug') {

    // Load the Favicon from local file
      if ( !function_exists('file_get_contents') ) {
      $fh = @fopen($filePath, 'r');
      while (!feof($fh)) {
        $content .= fread($fh, 128); // Because filesize() will not work on URLS?
    } else {
      $content = file_get_contents($filePath);
      print('<b style="color:red;">Image</b> <img style="width:32px;" 
             src="data:image/png;base64,'.base64_encode($content).'"><hr size="1">');

  // Return Favicon Url
  return $filePath;

} // END MAIN Function

/* HELPER load use curl or file_get_contents (both with user_agent) and fopen/fread as fallback */
function load($url, $DEBUG) {
  if ( function_exists('curl_version') ) {
    $ch = curl_init($url);
    curl_setopt($ch, CURLOPT_USERAGENT, 'FaviconBot/1.0 (+http://'.$_SERVER['SERVER_NAME'].'/');
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    $content = curl_exec($ch);
    if ( $DEBUG=='debug' ) { // FOR DEBUG ONLY
      $http_code = curl_getinfo($ch);
      print('<b style="color:red;">cURL</b> #'.$http_code['http_code'].'#<br>');
  } else {
    $context = array ( 'http' => array (
        'user_agent' => 'FaviconBot/1.0 (+http://'.$_SERVER['SERVER_NAME'].'/)'),
    $context = stream_context_create($context);
      if ( !function_exists('file_get_contents') ) {
      $fh = fopen($url, 'r', FALSE, $context);
      $content = '';
      while (!feof($fh)) {
        $content .= fread($fh, 128); // Because filesize() will not work on URLS?
    } else {
      $content = file_get_contents($url, NULL, $context);
  return $content;

/* HELPER: Change URL from relative to absolute */
function rel2abs( $rel, $base ) {
    extract( parse_url( $base ) );
    if ( strpos( $rel,"//" ) === 0 ) return $scheme . ':' . $rel;
    if ( parse_url( $rel, PHP_URL_SCHEME ) != '' ) return $rel;
    if ( $rel[0] == '#' or $rel[0] == '?' ) return $base . $rel;
    $path = preg_replace( '#/[^/]*$#', '', $path);
    if ( $rel[0] ==  '/' ) $path = '';
    $abs = $host . $path . "/" . $rel;
    $abs = preg_replace( "/(\/\.?\/)/", "/", $abs);
    $abs = preg_replace( "/\/(?!\.\.)[^\/]+\/\.\.\//", "/", $abs);
    return $scheme . '://' . $abs;

Источник: https://github.com/gaffling/PHP-Grab-Favicon