Proteusiq · May 8, 2021 06:35
diff --git a/get_pdf.py b/get_pdf.py
 # Using pyPDF2 and requests(or httpx) to extract PDF data

 import io
 import requests
 import PyPDF2

 # my favorite Kierkegard's PDF book
 URI = "https://antilogicalism.com/wp-content/uploads/2017/07/thesicknessuntodeath.pdf"
 headers = {"user-agent": "Prayson W. Daniel: prayson*at*.com"}

 # get online PDF, and extract text data
 r = requests.get(URI, headers=headers)
 with io.BytesIO(r.content) as f:
    reader = PyPDF2.PdfFileReader(f)
    num_pages = reader.numPages

    data_store = []
    # place page text to data
    for page in range(num_pages):
        page_data = reader.getPage(page)
        data_store.append(page_data.extractText())


 # consume data in NLP pipeline
 for page in data_store:
    # do awesome things
    print(page)
    print("\n")
	# Using pyPDF2 and requests(or httpx) to extract PDF data

	import io
	import requests
	import PyPDF2

	# my favorite Kierkegard's PDF book
	URI = "https://antilogicalism.com/wp-content/uploads/2017/07/thesicknessuntodeath.pdf"
	headers = {"user-agent": "Prayson W. Daniel: praysonat.com"}

	# get online PDF, and extract text data
	r = requests.get(URI, headers=headers)
	with io.BytesIO(r.content) as f:
	reader = PyPDF2.PdfFileReader(f)
	num_pages = reader.numPages

	data_store = []
	# place page text to data
	for page in range(num_pages):
	page_data = reader.getPage(page)
	data_store.append(page_data.extractText())


	# consume data in NLP pipeline
	for page in data_store:
	# do awesome things
	print(page)
	print("\n")