guillem · May 26, 2019 20:20
diff --git a/wikisplit.py b/wikisplit.py
 #!/usr/bin/env python3

 import os, sys, shutil

 infile = sys.argv[1]
 outdir = sys.argv[2]

 shutil.rmtree(outdir, ignore_errors=True)
 os.mkdir(outdir)

 with open(infile) as i:
 	p = False
 	n = 0
 	l = i.readline()
 	while l:
 		if l.strip() == '<page>':
 			p = True
 			n += 1
 			o = open(f'{outdir}{os.sep}{n:010d}.xml', 'w')
 			print(f'\r{n:010d}', end='', flush=True)
 		elif l.strip() == '</page>':
 			p = False
 			o.write(l)
 			o.close()
 		if p:
 			o.write(l)
 		l = i.readline()
	#!/usr/bin/env python3

	import os, sys, shutil

	infile = sys.argv[1]
	outdir = sys.argv[2]

	shutil.rmtree(outdir, ignore_errors=True)
	os.mkdir(outdir)

	with open(infile) as i:
	p = False
	n = 0
	l = i.readline()
	while l:
	if l.strip() == '<page>':
	p = True
	n += 1
	o = open(f'{outdir}{os.sep}{n:010d}.xml', 'w')
	print(f'\r{n:010d}', end='', flush=True)
	elif l.strip() == '</page>':
	p = False
	o.write(l)
	o.close()
	if p:
	o.write(l)
	l = i.readline()