kylegallatin · July 28, 2022 14:26
diff --git a/train_model.py b/train_model.py
 from sklearn.pipeline import make_pipeline
 from sklearn.linear_model import LogisticRegression
 from sklearn.preprocessing import StandardScaler
 from sklearn.model_selection import train_test_split

 ## logistic regression parameter config
 parameters = {
    "penalty":"l2",
    "C":1.0,
    "max_iter": 100
 }

 ## use a standard scaler and logistic regression
 scaler = StandardScaler()
 logistic_regression = LogisticRegression(
    penalty=parameters["penalty"],
    C=parameters["C"],
    max_iter=parameters["max_iter"],
 )

 ## make a pipeline out of them
 pipeline = make_pipeline(scaler, logistic_regression)

 ## get our data from the feature store and create a train/test split
 data = feature_store.get_all_data()
 X_train, X_test, y_train, y_test = train_test_split(data[["feature_1","feature_2","feature_3"]], data["target"])

 ## fit the model
 pipeline.fit(X_train, y_train)

 ## get the test score 
 score = pipeline.score(X_test, y_test)

 ## record it
 record_model(pipeline, score, parameters)

 ## view the output
 pd.read_csv("metadata_store.csv")
	from sklearn.pipeline import make_pipeline
	from sklearn.linear_model import LogisticRegression
	from sklearn.preprocessing import StandardScaler
	from sklearn.model_selection import train_test_split

	## logistic regression parameter config
	parameters = {
	"penalty":"l2",
	"C":1.0,
	"max_iter": 100
	}

	## use a standard scaler and logistic regression
	scaler = StandardScaler()
	logistic_regression = LogisticRegression(
	penalty=parameters["penalty"],
	C=parameters["C"],
	max_iter=parameters["max_iter"],
	)

	## make a pipeline out of them
	pipeline = make_pipeline(scaler, logistic_regression)

	## get our data from the feature store and create a train/test split
	data = feature_store.get_all_data()
	X_train, X_test, y_train, y_test = train_test_split(data[["feature_1","feature_2","feature_3"]], data["target"])

	## fit the model
	pipeline.fit(X_train, y_train)

	## get the test score
	score = pipeline.score(X_test, y_test)

	## record it
	record_model(pipeline, score, parameters)

	## view the output
	pd.read_csv("metadata_store.csv")