il y a 3 ans · a18c913871
--- a/analysis/rendering_surrogate_models.ipynb
+++ b/analysis/rendering_surrogate_models.ipynb
--- a/train_model_attributes.py
+++ b/train_model_attributes.py
@@ -12,7 +12,7 @@ from sklearn.ensemble import RandomForestClassifier, VotingClassifier
 
																 import joblib
															
 
																 import sklearn.svm as svm
															
 
																 from sklearn.utils import shuffle
															
 
																-from sklearn.metrics import accuracy_score, f1_score
															
 
																+from sklearn.metrics import accuracy_score, roc_auc_score
															
 
																 from sklearn.model_selection import cross_val_score
															
 
																 # modules and config imports
															
@@ -28,7 +28,7 @@ models_list         = cfg.models_names_list
 
																 current_dirpath     = os.getcwd()
															
 
																 output_model_folder = os.path.join(current_dirpath, saved_models_folder)
															
 
																-def loadDataset(filename):
															
 
																+def loadDataset(filename, n_step):
															
 
																     ########################
															
 
																     # 1. Get and prepare data
															
@@ -42,6 +42,9 @@ def loadDataset(filename):
 
																     dataset_train = shuffle(dataset_train)
															
 
																     dataset_test = shuffle(dataset_test)
															
 
																+    dataset_train = dataset_train[dataset_train.iloc[:, 2] % n_step == 0]
															
 
																+    dataset_test = dataset_test[dataset_test.iloc[:, 2] % n_step == 0]
															
 
																+
															
 
																     # get dataset with equal number of classes occurences
															
 
																     noisy_df_train = dataset_train[dataset_train.iloc[:, 3] == 1]
															
 
																     not_noisy_df_train = dataset_train[dataset_train.iloc[:, 3] == 0]
															
@@ -72,15 +75,17 @@ def main():
 
																     parser = argparse.ArgumentParser(description="Train SKLearn model and save it into .joblib file")
															
 
																-    parser.add_argument('--data', type=str, help='dataset filename prefiloc (without .train and .test)')
															
 
																-    parser.add_argument('--output', type=str, help='output file name desired for model (without .joblib extension)')
															
 
																-    parser.add_argument('--choice', type=str, help='model choice from list of choices', choices=models_list)
															
 
																+    parser.add_argument('--data', type=str, help='dataset filename prefiloc (without .train and .test)', required=True)
															
 
																+    parser.add_argument('--output', type=str, help='output file name desired for model (without .joblib extension)', required=True)
															
 
																+    parser.add_argument('--choice', type=str, help='model choice from list of choices', choices=models_list, required=True)
															
 
																+    parser.add_argument('--step', type=int, help='step number of samples expected', default=20)
															
 
																     parser.add_argument('--solution', type=str, help='Data of solution to specify filters to use')
															
 
																     args = parser.parse_args()
															
 
																     p_data_file = args.data
															
 
																     p_output    = args.output
															
 
																+    p_step      = args.step
															
 
																     p_choice    = args.choice
															
 
																     p_solution  = list(map(int, args.solution.split(' ')))
															
@@ -90,7 +95,7 @@ def main():
 
																     ########################
															
 
																     # 1. Get and prepare data
															
 
																     ########################
															
 
																-    x_dataset_train, y_dataset_train, x_dataset_test, y_dataset_test = loadDataset(p_data_file)
															
 
																+    x_dataset_train, y_dataset_train, x_dataset_test, y_dataset_test = loadDataset(p_data_file, p_step)
															
 
																     # get indices of filters data to use (filters selection from solution)
															
 
																     indices = []
															
@@ -100,11 +105,16 @@ def main():
 
																         if value == 1: 
															
 
																             indices.append(index) 
															
 
																-    print(indices)
															
 
																+    print(f'Selected indices are: {indices}')
															
 
																+    print(f"Train dataset size {len(x_dataset_train)}")
															
 
																+    print(f"Test dataset size {len(x_dataset_test)}")
															
 
																     x_dataset_train = x_dataset_train.iloc[:, indices]
															
 
																     x_dataset_test =  x_dataset_test.iloc[:, indices]
															
 
																+    print()
															
 
																+
															
 
																+    return
															
 
																     #######################
															
 
																     # 2. Construction of the model : Ensemble model structure
															
 
																     #######################
															
@@ -119,40 +129,28 @@ def main():
 
																     print("Accuracy: %0.2f (+/- %0.2f)" % (val_scores.mean(), val_scores.std() * 2))
															
 
																     ######################
															
 
																-    # 4. Test : Validation and test dataset from .test dataset
															
 
																+    # 4. Metrics
															
 
																     ######################
															
 
																-    # we need to specify validation size to 20% of whole dataset
															
 
																-    val_set_size = int(final_df_train_size/3)
															
 
																-    test_set_size = val_set_size
															
 
																-
															
 
																-    total_validation_size = val_set_size + test_set_size
															
 
																-
															
 
																-    if final_df_test_size > total_validation_size:
															
 
																-        x_dataset_test = x_dataset_test[0:total_validation_size]
															
 
																-        y_dataset_test = y_dataset_test[0:total_validation_size]
															
 
																-
															
 
																-    X_test, X_val, y_test, y_val = train_test_split(x_dataset_test, y_dataset_test, test_size=0.5, random_state=1)
															
 
																-
															
 
																-    y_test_model = model.predict(X_test)
															
 
																-    y_val_model = model.predict(X_val)
															
 
																+    y_train_model = model.predict(x_dataset_train)
															
 
																+    y_test_model = model.predict(x_dataset_test)
															
 
																-    val_accuracy = accuracy_score(y_val, y_val_model)
															
 
																-    test_accuracy = accuracy_score(y_test, y_test_model)
															
 
																+    train_accuracy = accuracy_score(y_dataset_train, y_train_model)
															
 
																+    test_accuracy = accuracy_score(y_dataset_test, y_test_model)
															
 
																-    val_f1 = f1_score(y_val, y_val_model)
															
 
																-    test_f1 = f1_score(y_test, y_test_model)
															
 
																+    train_auc = roc_auc_score(y_dataset_train, y_train_model)
															
 
																+    test_auc = roc_auc_score(y_dataset_test, y_test_model)
															
 
																     ###################
															
 
																     # 5. Output : Print and write all information in csv
															
 
																     ###################
															
 
																-    print("Validation dataset size ", val_set_size)
															
 
																-    print("Validation: ", val_accuracy)
															
 
																-    print("Validation F1: ", val_f1)
															
 
																-    print("Test dataset size ", test_set_size)
															
 
																-    print("Test: ", val_accuracy)
															
 
																-    print("Test F1: ", test_f1)
															
 
																+    print("Train dataset size ", len(x_dataset_train))
															
 
																+    print("Train acc: ", train_accuracy)
															
 
																+    print("Train AUC: ", train_auc)
															
 
																+    print("Test dataset size ", len(x_dataset_test))
															
 
																+    print("Test acc: ", test_accuracy)
															
 
																+    print("Test AUC: ", test_auc)
															
 
																     ##################
															
 
																     # 6. Save model : create path if not exists