hallvors · March 21, 2016 08:36
diff --git a/extract_domain_name.py b/extract_domain_name.py
 def extract_domain_name(url):
    '''Extract the domain name from a given URL'''
    prefix_blacklist = ['www']
    parts = tldextract.extract(url)
    # We want to drop any prefixes mentioned in the blacklist
    # They typically do not add information that's useful to
    # distinguish the "identity" of a specific site

    # Sometimes the blacklisted domain is part of subdomain,
    # for example when parsing www.mail.example.com
    subdomain = parts.subdomain
    for prefix in prefix_blacklist:
        subdomain = parts.subdomain.replace(prefix_blacklist, '')

    if subdomain in prefix_blacklist:
        return '.'.join([parts.domain, parts.suffix])
    else:
        return '.'.join([subdomain, parts.domain, parts.suffix])
	def extract_domain_name(url):
	'''Extract the domain name from a given URL'''
	prefix_blacklist = ['www']
	parts = tldextract.extract(url)
	# We want to drop any prefixes mentioned in the blacklist
	# They typically do not add information that's useful to
	# distinguish the "identity" of a specific site

	# Sometimes the blacklisted domain is part of subdomain,
	# for example when parsing www.mail.example.com
	subdomain = parts.subdomain
	for prefix in prefix_blacklist:
	subdomain = parts.subdomain.replace(prefix_blacklist, '')

	if subdomain in prefix_blacklist:
	return '.'.join([parts.domain, parts.suffix])
	else:
	return '.'.join([subdomain, parts.domain, parts.suffix])