Gaarv · April 22, 2021 07:27
diff --git a/generator.py b/generator.py
 import pandas as pd
 from tqdm import tqdm
 import csv
 import random
 import string
 from pyspark.sql import SparkSession
 from pyspark.sql.functions import *

 random.seed(1999)

 letters = string.ascii_lowercase
 letters_upper = string.ascii_uppercase
 for _i in range(0, 10):
    letters += letters

 for _i in range(0, 10):
    letters += letters_upper


 def random_string(stringLength=10):
    """Generate a random string of fixed length """
    return ''.join(random.sample(letters, stringLength))


 print("Products between {} and {}".format(1, 75000000))
 product_ids = [x for x in range(1, 75000000)]
 dates = ['2020-07-01', '2020-07-02', '2020-07-03', '2020-07-04', '2020-07-05', '2020-07-06', '2020-07-07', '2020-07-08',
         '2020-07-09', '2020-07-10']
 seller_ids = [x for x in range(1, 10)]


 #   Generate products
 products = [[0, "product_0", 22]]
 for p in tqdm(product_ids):
    products.append([p, "product_{}".format(p), random.randint(1, 150)])
 #   Save dataframe
 df = pd.DataFrame(products)
 df.columns = ["product_id", "product_name", "price"]
 df.to_csv("products.csv", index=False)
 del df
 del products

 #   Generate sellers
 sellers = [[0, "seller_0", 2500000]]
 for s in tqdm(seller_ids):
    sellers.append([s, "seller_{}".format(s), random.randint(12000, 2000000)])
 #   Save dataframe
 df = pd.DataFrame(sellers)
 df.columns = ["seller_id", "seller_name", "daily_target"]
 df.to_csv("sellers.csv", index=False)

 #   Generate sales
 total_rows = 500000
 prod_zero = int(total_rows * 0.95)
 prod_others = total_rows - prod_zero + 1
 df_array = [["order_id", "product_id", "seller_id", "date", "num_pieces_sold", "bill_raw_text"]]
 with open('sales.csv', 'w', newline='') as f:
    csvwriter = csv.writer(f)
    csvwriter.writerows(df_array)

 order_id = 0
 for i in tqdm(range(0, 40)):
    df_array = []

    for i in range(0, prod_zero):
        order_id += 1
        df_array.append([order_id, 0, 0, random.choice(dates), random.randint(1, 100), random_string(500)])

    with open('sales.csv', 'a', newline='') as f:
        csvwriter = csv.writer(f)
        csvwriter.writerows(df_array)

    df_array = []
    for i in range(0, prod_others):
        order_id += 1
        df_array.append(
            [order_id, random.choice(product_ids), random.choice(seller_ids), random.choice(dates),
             random.randint(1, 100), random_string(500)])

    with open('sales.csv', 'a', newline='') as f:
        csvwriter = csv.writer(f)
        csvwriter.writerows(df_array)

 print("Done")

 spark = SparkSession.builder \
    .master("local") \
    .config("spark.sql.autoBroadcastJoinThreshold", -1) \
    .appName("Exercise1") \
    .getOrCreate()

 products = spark.read.csv(
    "products.csv", header=True, mode="DROPMALFORMED"
 )
 products.show()
 products.write.parquet("products_parquet", mode="overwrite")

 sales = spark.read.csv(
    "sales.csv", header=True, mode="DROPMALFORMED"
 )
 sales.show()
 sales.repartition(200, col("product_id")).write.parquet("sales_parquet", mode="overwrite")

 sellers = spark.read.csv(
    "sellers.csv", header=True, mode="DROPMALFORMED"
 )
 sellers.show()
 sellers.write.parquet("sellers_parquet", mode="overwrite")
	import pandas as pd
	from tqdm import tqdm
	import csv
	import random
	import string
	from pyspark.sql import SparkSession
	from pyspark.sql.functions import *

	random.seed(1999)

	letters = string.ascii_lowercase
	letters_upper = string.ascii_uppercase
	for _i in range(0, 10):
	letters += letters

	for _i in range(0, 10):
	letters += letters_upper


	def random_string(stringLength=10):
	"""Generate a random string of fixed length """
	return ''.join(random.sample(letters, stringLength))


	print("Products between {} and {}".format(1, 75000000))
	product_ids = [x for x in range(1, 75000000)]
	dates = ['2020-07-01', '2020-07-02', '2020-07-03', '2020-07-04', '2020-07-05', '2020-07-06', '2020-07-07', '2020-07-08',
	'2020-07-09', '2020-07-10']
	seller_ids = [x for x in range(1, 10)]


	# Generate products
	products = [[0, "product_0", 22]]
	for p in tqdm(product_ids):
	products.append([p, "product_{}".format(p), random.randint(1, 150)])
	# Save dataframe
	df = pd.DataFrame(products)
	df.columns = ["product_id", "product_name", "price"]
	df.to_csv("products.csv", index=False)
	del df
	del products

	# Generate sellers
	sellers = [[0, "seller_0", 2500000]]
	for s in tqdm(seller_ids):
	sellers.append([s, "seller_{}".format(s), random.randint(12000, 2000000)])
	# Save dataframe
	df = pd.DataFrame(sellers)
	df.columns = ["seller_id", "seller_name", "daily_target"]
	df.to_csv("sellers.csv", index=False)

	# Generate sales
	total_rows = 500000
	prod_zero = int(total_rows * 0.95)
	prod_others = total_rows - prod_zero + 1
	df_array = [["order_id", "product_id", "seller_id", "date", "num_pieces_sold", "bill_raw_text"]]
	with open('sales.csv', 'w', newline='') as f:
	csvwriter = csv.writer(f)
	csvwriter.writerows(df_array)

	order_id = 0
	for i in tqdm(range(0, 40)):
	df_array = []

	for i in range(0, prod_zero):
	order_id += 1
	df_array.append([order_id, 0, 0, random.choice(dates), random.randint(1, 100), random_string(500)])

	with open('sales.csv', 'a', newline='') as f:
	csvwriter = csv.writer(f)
	csvwriter.writerows(df_array)

	df_array = []
	for i in range(0, prod_others):
	order_id += 1
	df_array.append(
	[order_id, random.choice(product_ids), random.choice(seller_ids), random.choice(dates),
	random.randint(1, 100), random_string(500)])

	with open('sales.csv', 'a', newline='') as f:
	csvwriter = csv.writer(f)
	csvwriter.writerows(df_array)

	print("Done")

	spark = SparkSession.builder \
	.master("local") \
	.config("spark.sql.autoBroadcastJoinThreshold", -1) \
	.appName("Exercise1") \
	.getOrCreate()

	products = spark.read.csv(
	"products.csv", header=True, mode="DROPMALFORMED"
	)
	products.show()
	products.write.parquet("products_parquet", mode="overwrite")

	sales = spark.read.csv(
	"sales.csv", header=True, mode="DROPMALFORMED"
	)
	sales.show()
	sales.repartition(200, col("product_id")).write.parquet("sales_parquet", mode="overwrite")

	sellers = spark.read.csv(
	"sellers.csv", header=True, mode="DROPMALFORMED"
	)
	sellers.show()
	sellers.write.parquet("sellers_parquet", mode="overwrite")