alfredplpl · September 1, 2023 19:47 · alfredplpl · Sep 1, 2023
diff --git a/whole_paper_read_llm.py b/whole_paper_read_llm.py
 # MIT License
 from transformers import AutoTokenizer
 import transformers
 from langchain.document_loaders import PyPDFLoader
 import torch

 model = "NousResearch/Yarn-Llama-2-13b-128k"

 tokenizer = AutoTokenizer.from_pretrained(model)
 pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True
 )


 loader = PyPDFLoader("/path/to/paper")
 documents = loader.load()

 print(len(documents))
 document=""
 for doc in documents:
    document+=doc.page_content
 text=document.replace("\n","")
 print(len(text))

 question="I am going to summarize the academic contribution of this paper in the following statement."
 sequences = pipeline(
    f"I am going to read the following academic paper. \n\n {text} \n\n {question}\n",
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=20000,
 )
 for seq in sequences:
    print(f"Result: {seq['generated_text']}")
	# MIT License
	from transformers import AutoTokenizer
	import transformers
	from langchain.document_loaders import PyPDFLoader
	import torch

	model = "NousResearch/Yarn-Llama-2-13b-128k"

	tokenizer = AutoTokenizer.from_pretrained(model)
	pipeline = transformers.pipeline(
	"text-generation",
	model=model,
	device_map="auto",
	torch_dtype=torch.float16,
	trust_remote_code=True
	)


	loader = PyPDFLoader("/path/to/paper")
	documents = loader.load()

	print(len(documents))
	document=""
	for doc in documents:
	document+=doc.page_content
	text=document.replace("\n","")
	print(len(text))

	question="I am going to summarize the academic contribution of this paper in the following statement."
	sequences = pipeline(
	f"I am going to read the following academic paper. \n\n {text} \n\n {question}\n",
	do_sample=True,
	top_k=10,
	num_return_sequences=1,
	eos_token_id=tokenizer.eos_token_id,
	max_length=20000,
	)
	for seq in sequences:
	print(f"Result: {seq['generated_text']}")