Требуется способ извлечь доменное имя без субдомена из URL-адреса, используя URL-адрес Python.
Например, я хотел бы извлечь "google.com"
из полного URL-адреса, например "http://www.google.com"
.
Ближайшим я могу казаться, что urlparse
является атрибутом netloc
, но включает субдомен, который в этом примере будет www.google.com
.
Я знаю, что можно написать некоторые пользовательские манипуляции с строкой, чтобы превратить www.google.com в google.com, но я хочу избежать непротиворечивых строковых преобразований или регулярных выражений в этой задаче. (Причина этого в том, что я недостаточно разбираюсь в правилах формирования URL-адресов, чтобы чувствовать уверенность в том, что я могу рассмотреть каждый случай края, необходимый для написания пользовательской функции синтаксического анализа.)
Или, если urlparse
не может делать то, что мне нужно, знает ли кто-нибудь другие библиотеки Python для анализа URL-адресов, которые будут?