Gubolin · November 28, 2024 12:53
diff --git a/extract.js b/extract.js
 // adapted from https://stackoverflow.com/questions/1554280/extract-text-from-pdf-in-javascript/9213180#9213180

        page.render(renderContext).promise.then(function(pdf){
            page.getTextContent().then(function(textContent){
                var page_text = "";
                var last_block = null;

                for(j = 0; j < textContent.length; j++){
                    var block = textContent[j];
                    if(last_block != null && last_block.str[last_block.str.length - 1] != ' '){
                        if(block.x < last_block.x){
                            page_text += "\r\n";
                        }else if(last_block.y != block.y && (last_block.str.match(/^(\s?[a-zA-Z])$|^(.+\s[a-zA-Z])$/) == null )){
                            page_text += '\r\n';
                        }
                    }

                    page_text += block.str;
                    last_block = block;
                }

                console.log(page_text);
            });

            callback(pdf);
        });
	// adapted from https://stackoverflow.com/questions/1554280/extract-text-from-pdf-in-javascript/9213180#9213180

	page.render(renderContext).promise.then(function(pdf){
	page.getTextContent().then(function(textContent){
	var page_text = "";
	var last_block = null;

	for(j = 0; j < textContent.length; j++){
	var block = textContent[j];
	if(last_block != null && last_block.str[last_block.str.length - 1] != ' '){
	if(block.x < last_block.x){
	page_text += "\r\n";
	}else if(last_block.y != block.y && (last_block.str.match(/^(\s?[a-zA-Z])$\|^(.+\s[a-zA-Z])$/) == null )){
	page_text += '\r\n';
	}
	}

	page_text += block.str;
	last_block = block;
	}

	console.log(page_text);
	});

	callback(pdf);
	});
No results found