rajasankar · June 10, 2015 07:02
diff --git a/extracttext.py b/extracttext.py
 inputfilename='file.html'
 data=urllib2.urlopen(inputfilename)
 soup = BeautifulSoup(data)
 data=soup.prettify()
 soup = BeautifulSoup(data)
 ti=soup.findAll(attrs={'class':'pno'})
 for t in ti:
     t.extract()     
 ti=soup.findAll(attrs={'class':'subhead'})
 for t in ti:
     t.extract()     
 lines=[]
 for s in soup(text=True):
     s=s.strip().replace('\t','')
     print s
	inputfilename='file.html'
	data=urllib2.urlopen(inputfilename)
	soup = BeautifulSoup(data)
	data=soup.prettify()
	soup = BeautifulSoup(data)
	ti=soup.findAll(attrs={'class':'pno'})
	for t in ti:
	t.extract()
	ti=soup.findAll(attrs={'class':'subhead'})
	for t in ti:
	t.extract()
	lines=[]
	for s in soup(text=True):
	s=s.strip().replace('\t','')
	print s
No results found