mehdinourollah · October 24, 2025 15:16 · mehdinourollah · Oct 24, 2025
diff --git a/web2pdf.py b/web2pdf.py
 import pdfkit
 import requests
 from bs4 import BeautifulSoup
 import urllib.parse

 def webpage_to_pdf(url, output_file):
    # Fetch webpage content
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Extract links
    links = [a.get('href') for a in soup.find_all('a', href=True)]
    # Convert relative URLs to absolute
    links = [urllib.parse.urljoin(url, link) for link in links]
    
    # Generate PDF from webpage
    pdfkit.from_url(url, output_file)
    
    # Append links to PDF (simple text append)
    with open(output_file.replace('.pdf', '_links.txt'), 'w') as f:
        f.write("Links found on the webpage:\n")
        for link in links:
            f.write(f"{link}\n")

 # Example usage
 if __name__ == "__main__":
    webpage_url = "https://cs.yale.edu/homes/aspnes/classes/223/notes.html"
    output_pdf = "output.pdf"
    webpage_to_pdf(webpage_url, output_pdf)
	import pdfkit
	import requests
	from bs4 import BeautifulSoup
	import urllib.parse

	def webpage_to_pdf(url, output_file):
	# Fetch webpage content
	response = requests.get(url)
	soup = BeautifulSoup(response.text, 'html.parser')

	# Extract links
	links = [a.get('href') for a in soup.find_all('a', href=True)]
	# Convert relative URLs to absolute
	links = [urllib.parse.urljoin(url, link) for link in links]

	# Generate PDF from webpage
	pdfkit.from_url(url, output_file)

	# Append links to PDF (simple text append)
	with open(output_file.replace('.pdf', '_links.txt'), 'w') as f:
	f.write("Links found on the webpage:\n")
	for link in links:
	f.write(f"{link}\n")

	# Example usage
	if __name__ == "__main__":
	webpage_url = "https://cs.yale.edu/homes/aspnes/classes/223/notes.html"
	output_pdf = "output.pdf"
	webpage_to_pdf(webpage_url, output_pdf)
No results found