Как получить заголовок страницы веб-страницы с помощью Python?

Как я могу получить заголовок страницы веб-страницы (заголовок html-тега) с помощью Python?

Ответ 1

Я всегда буду использовать lxml для таких задач. Вы можете использовать beautifulsoup.

import lxml.html
t = lxml.html.parse(url)
print t.find(".//title").text

Ответ 2

Вот упрощенная версия ответа @Vinko Vrsalovic:

import urllib2
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen("https://www.google.com"))
print soup.title.string

НОТА:

soup.title находит первый элемент заголовка в любом месте HTML-документа
title.string предполагает, что у него есть только один дочерний узел, и этот дочерний узел является строкой

Для Beautifulsoup 4.x используйте другой импорт:

from bs4 import BeautifulSoup

Ответ 3

Объект Mechanize Browser имеет метод title(). Поэтому код этого сообщения можно переписать как:

from mechanize import Browser
br = Browser()
br.open("http://www.google.com/")
print br.title()

Ответ 4

Это, вероятно, слишком сложно для такой простой задачи, но если вы планируете сделать больше, то это станет проще начать с этих инструментов (mechanize, BeautifulSoup), потому что они намного проще в использовании, чем альтернативы (urllib для получения content и regexen или какой-либо другой синтаксический анализатор для анализа html)

Ссылки: BeautifulSoup mechanize

#!/usr/bin/env python
#coding:utf-8

from BeautifulSoup import BeautifulSoup
from mechanize import Browser

#This retrieves the webpage content
br = Browser()
res = br.open("https://www.google.com/")
data = res.get_data() 

#This parses the content
soup = BeautifulSoup(data)
title = soup.find('title')

#This outputs the content :)
print title.renderContents()

Ответ 5

Использование HTMLParser:

from urllib.request import urlopen
from html.parser import HTMLParser


class TitleParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.match = False
        self.title = ''

    def handle_starttag(self, tag, attributes):
        self.match = True if tag == 'title' else False

    def handle_data(self, data):
        if self.match:
            self.title = data
            self.match = False

url = "http://example.com/"
html_string = str(urlopen(url).read())

parser = TitleParser()
parser.feed(html_string)
print(parser.title)  # prints: Example Domain

Ответ 6

Не нужно импортировать другие библиотеки. Запрос имеет встроенную функцию.

>> hearders = {'headers':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:51.0) Gecko/20100101 Firefox/51.0'}
>>> n = requests.get('http://www.imdb.com/title/tt0108778/', headers=hearders)
>>> al = n.text
>>> al[al.find('<title>') + 7 : al.find('</title>')]
u'Friends (TV Series 1994\u20132004) - IMDb'

Ответ 7

Использование регулярных выражений

import re
match = re.search('<title>(.*?)</title>', raw_html)
title = match.group(1) if match else 'No title'

Ответ 8

soup.title.string фактически возвращает строку юникода. Чтобы преобразовать это в обычную строку, вам нужно сделать string=string.encode('ascii','ignore')

Ответ 9

Вот отказоустойчивая реализация HTMLParser.
Вы можете бросить почти что угодно в get_title() без его взлома, Если что-то неожиданное произойдет get_title() вернет None.
Когда Parser() загружает страницу, она кодирует ее до ASCII независимо от кодировки, используемой на странице, игнорируя любые ошибки. Было бы тривиально изменить to_ascii(), чтобы преобразовать данные в UTF-8 или любую другую кодировку. Просто добавьте аргумент кодировки и переименуйте функцию на что-то вроде to_encoding().
По умолчанию HTMLParser() сломается на сломанном html, он даже сломает тривиальные вещи, такие как несоответствующие теги. Чтобы предотвратить это поведение, я заменил метод ошибки HTMLParser() функцией, которая будет игнорировать ошибки.

#-*-coding:utf8;-*-
#qpy:3
#qpy:console

''' 
Extract the title from a web page using
the standard lib.
'''

from html.parser import HTMLParser
from urllib.request import urlopen
import urllib

def error_callback(*_, **__):
    pass

def is_string(data):
    return isinstance(data, str)

def is_bytes(data):
    return isinstance(data, bytes)

def to_ascii(data):
    if is_string(data):
        data = data.encode('ascii', errors='ignore')
    elif is_bytes(data):
        data = data.decode('ascii', errors='ignore')
    else:
        data = str(data).encode('ascii', errors='ignore')
    return data


class Parser(HTMLParser):
    def __init__(self, url):
        self.title = None
        self.rec = False
        HTMLParser.__init__(self)
        try:
            self.feed(to_ascii(urlopen(url).read()))
        except urllib.error.HTTPError:
            return
        except urllib.error.URLError:
            return
        except ValueError:
            return

        self.rec = False
        self.error = error_callback

    def handle_starttag(self, tag, attrs):
        if tag == 'title':
            self.rec = True

    def handle_data(self, data):
        if self.rec:
            self.title = data

    def handle_endtag(self, tag):
        if tag == 'title':
            self.rec = False


def get_title(url):
    return Parser(url).title

print(get_title('http://www.google.com'))

Ответ 10

Используя lxml...

Получение мета-тега со страницы согласно протоколу opengraph Facebook:

import lxml.html.parse
html_doc = lxml.html.parse(some_url)

t = html_doc.xpath('//meta[@property="og:title"]/@content')[0]

или используя .xpath с lxml:

t = html_doc.xpath(".//title")[0].text