vadimkantorov · April 25, 2025 13:37
diff --git a/parquet2npyztsv.py b/parquet2npyztsv.py
 # Usage: python parquet2npyztsv.py test.npy data/train-*-of-*.parquet
 # Usage: python parquet2npyztsv.py test.npz data/train-*-of-*.parquet
 # Usage: python parquet2npyztsv.py test.tsv data/train-*-of-*.parquet

 import sys
 import numpy as np
 import pyarrow.parquet as pq

 output_path, *input_paths = sys.argv[1:]

 cols = {}

 for input_path in sorted(input_paths):
    table = pq.read_table(input_path)
    for col_name in table.column_names:
        cols[col_name] = np.append(cols.get(col_name, []), table[col_name].to_numpy()) # to_numpy() returns dtype=object for string columns

 if output_path.endswith('.tsv'):
    np.savetxt(output_path, np.rec.fromarrays([cols[col_name] for col_name in cols.keys()], names = list(cols.keys())), fmt = '\t'.join(['%s'] * len(cols)), header = '\t'.join(cols.keys()), comments = '')
        
 if output_path.endswith('.npy'):
    np.save(output_path   , np.rec.fromarrays([cols[col_name] for col_name in cols.keys()], names = list(cols.keys())), allow_pickle=True)

 if output_path.endswith('.npz'):
    np.savez(output_path, **cols, allow_pickle=True)
 
 # must use allow_pickle=True, NumPy does not currently support saving/loading varlen string arrays without pickle: https://github.com/numpy/numpy/issues/25693#issuecomment-2809206226
 # np.load(output_path, allow_pickle=True)
	# Usage: python parquet2npyztsv.py test.npy data/train--of-.parquet
	# Usage: python parquet2npyztsv.py test.npz data/train--of-.parquet
	# Usage: python parquet2npyztsv.py test.tsv data/train--of-.parquet

	import sys
	import numpy as np
	import pyarrow.parquet as pq

	output_path, *input_paths = sys.argv[1:]

	cols = {}

	for input_path in sorted(input_paths):
	table = pq.read_table(input_path)
	for col_name in table.column_names:
	cols[col_name] = np.append(cols.get(col_name, []), table[col_name].to_numpy()) # to_numpy() returns dtype=object for string columns

	if output_path.endswith('.tsv'):
	np.savetxt(output_path, np.rec.fromarrays([cols[col_name] for col_name in cols.keys()], names = list(cols.keys())), fmt = '\t'.join(['%s'] * len(cols)), header = '\t'.join(cols.keys()), comments = '')

	if output_path.endswith('.npy'):
	np.save(output_path , np.rec.fromarrays([cols[col_name] for col_name in cols.keys()], names = list(cols.keys())), allow_pickle=True)

	if output_path.endswith('.npz'):
	np.savez(output_path, **cols, allow_pickle=True)

	# must use allow_pickle=True, NumPy does not currently support saving/loading varlen string arrays without pickle: https://github.com/numpy/numpy/issues/25693#issuecomment-2809206226
	# np.load(output_path, allow_pickle=True)