il y a 6 ans · 815c5c8601
--- a/generateAndTrainEnsemble_random.sh
+++ b/generateAndTrainEnsemble_random.sh
@@ -1,63 +0,0 @@
 
																-#! bin/bash
															
 
																-
															
 
																-if [ -z "$1" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of vector size"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-if [ -z "$2" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of model output name"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-VECTOR_SIZE=$1
															
 
																-INPUT_MODEL_NAME=$2
															
 
																-
															
 
																-# selection of six scenes
															
 
																-scenes="A, B, C, D, E, F, G, H, I"
															
 
																-
															
 
																-for size in {"4","8","16","26","32","40"}; do
															
 
																-
															
 
																-  start=0
															
 
																-  for counter in {0..4}; do
															
 
																-    end=$(($start+$size))
															
 
																-
															
 
																-    if [ "$end" -gt "$VECTOR_SIZE" ]; then
															
 
																-        start=$(($VECTOR_SIZE-$size))
															
 
																-        end=$(($VECTOR_SIZE))
															
 
																-    fi
															
 
																-
															
 
																-    for nb_zones in {2,3,4,5,6,7,8,9,10}; do
															
 
																-
															
 
																-        for metric in {"lab","mscn"}; do
															
 
																-    
															
 
																-            for mode in {"svd","svdn","svdne"}; do
															
 
																-
															
 
																-                FILENAME="data/data_${mode}_${metric}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}_random"
															
 
																-                MODEL_NAME="${INPUT_MODEL_NAME}_${mode}_${metric}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}"
															
 
																-
															
 
																-                echo $FILENAME
															
 
																-                python generate_data_model_random.py --output ${FILENAME} --interval "${start},${end}" --kind ${mode} --metric ${metric} --scenes "${scenes}" --nb_zones "${nb_zones}" --percent 1 --sep ';' --rowindex '0'
															
 
																-                python ensemble_model_train.py --data ${FILENAME}.train --output ${MODEL_NAME}
															
 
																-                bash testModelByScene.sh "${start}" "${end}" "saved_models/${MODEL_NAME}.joblib" "${mode}" "${metric}" >> "saved_models/${MODEL_NAME}.tex"
															
 
																-
															
 
																-            done
															
 
																-        done
															
 
																-    done
															
 
																-if [ -z "$2" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of model output name"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-VECTOR_SIZE=$1
															
 
																-INPUT_MODEL_NAME=$2
															
 
																-    start=$(($start+50))
															
 
																-  done
															
 
																-
															
 
																-done
															
--- a/generateAndTrainSVM.sh
+++ b/generateAndTrainSVM.sh
@@ -1,56 +0,0 @@
 
																-#! bin/bash
															
 
																-
															
 
																-if [ -z "$1" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of vector size"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-if [ -z "$2" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of model output name"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-VECTOR_SIZE=$1
															
 
																-INPUT_MODEL_NAME=$2
															
 
																-
															
 
																-# selection of six scenes
															
 
																-scenes="A, B, C, D, E, G"
															
 
																-
															
 
																-for size in {"4","8","16","26","32","40"}; do
															
 
																-
															
 
																-  start=0
															
 
																-  for counter in {0..4}; do
															
 
																-    end=$(($start+$size))
															
 
																-
															
 
																-    if [ "$end" -gt "$VECTOR_SIZE" ]; then
															
 
																-        start=$(($VECTOR_SIZE-$size))
															
 
																-        end=$(($VECTOR_SIZE))
															
 
																-    fi
															
 
																-
															
 
																-    for zones in {"1, 3, 7, 9","0, 2, 7, 8, 9","2, 6, 8, 10, 13, 15","1, 2, 4, 7, 9, 10, 13, 15"}; do
															
 
																-
															
 
																-        zones_str="${zones//, /-}"
															
 
																-
															
 
																-        for metric in {"lab","mscn"}; do
															
 
																-
															
 
																-            for mode in {"svd","svdn","svdne"}; do
															
 
																-
															
 
																-                FILENAME="data/data_${mode}_${metric}_N${size}_B${start}_E${end}_zones${zones_str}"
															
 
																-                MODEL_NAME="saved_models/${INPUT_MODEL_NAME}_${mode}_${metric}_N${size}_B${start}_E${end}_zones_${zones_str}"
															
 
																-
															
 
																-                echo $FILENAME
															
 
																-                python generate_data_model.py --output ${FILENAME} --interval "${start},${end}" --kind ${mode} --metric ${metric} --scenes "${scenes}" --zones "${zones}" --percent 1 --sep ';' --rowindex '0'
															
 
																-                python svm_model_train.py --data ${FILENAME}.train --output ${MODEL_NAME} &
															
 
																-
															
 
																-            done
															
 
																-        done
															
 
																-    done
															
 
																-
															
 
																-    start=$(($start+50))
															
 
																-  done
															
 
																-
															
 
																-done
															
--- a/generateAndTrainSVM_random.sh
+++ b/generateAndTrainSVM_random.sh
@@ -1,64 +0,0 @@
 
																-#! bin/bash
															
 
																-
															
 
																-if [ -z "$1" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of vector size"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-if [ -z "$2" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of model output name"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-VECTOR_SIZE=$1
															
 
																-INPUT_MODEL_NAME=$2
															
 
																-
															
 
																-# selection of six scenes
															
 
																-scenes="A, B, C, D, E, F, G, H, I"
															
 
																-
															
 
																-for size in {"4","8","16","26","32","40"}; do
															
 
																-
															
 
																-  start=0
															
 
																-  for counter in {0..4}; do
															
 
																-    end=$(($start+$size))
															
 
																-
															
 
																-    if [ "$end" -gt "$VECTOR_SIZE" ]; then
															
 
																-        start=$(($VECTOR_SIZE-$size))
															
 
																-        end=$(($VECTOR_SIZE))
															
 
																-    fi
															
 
																-
															
 
																-    for nb_zones in {2,3,4,5,6,7,8,9,10}; do
															
 
																-
															
 
																-        for metric in {"lab","mscn"}; do
															
 
																-            
															
 
																-            for mode in {"svd","svdn","svdne"}; do
															
 
																-
															
 
																-                FILENAME="data/data_${mode}_${metric}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}_random"
															
 
																-                MODEL_NAME="${INPUT_MODEL_NAME}_${mode}_${metric}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}"
															
 
																-
															
 
																-                echo $FILENAME
															
 
																-                python generate_data_model_random.py --output ${FILENAME} --interval "${start},${end}" --kind ${mode} --metric ${metric} --scenes "${scenes}" --nb_zones "${nb_zones}" --percent 1 --sep ';' --rowindex '0'
															
 
																-                python svm_model_train.py --data ${FILENAME}.train --output ${MODEL_NAME} &
															
 
																-
															
 
																-                # add computation of scenes score and LaTeX display of its
															
 
																-
															
 
																-            done
															
 
																-        done
															
 
																-    done
															
 
																-if [ -z "$2" ]
															
 
																-  then
															
 
																-    echo "No argument supplied"
															
 
																-    echo "Need of model output name"
															
 
																-    exit 1
															
 
																-fi
															
 
																-
															
 
																-VECTOR_SIZE=$1
															
 
																-INPUT_MODEL_NAME=$2
															
 
																-    start=$(($start+50))
															
 
																-  done
															
 
																-
															
 
																-done
															
--- a/generateAndTrain_maxwell.sh
+++ b/generateAndTrain_maxwell.sh
@@ -48,15 +48,15 @@ for counter in {0..4}; do
 
																                 MODEL_NAME="${model}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}_${metric}_${mode}"
															
 
																                 echo $FILENAME
															
 
																-                
															
 
																+
															
 
																                 # only compute if necessary (perhaps server will fall.. Just in case)
															
 
																                 if grep -q "${MODEL_NAME}" "${result_filename}"; then
															
 
																                     echo "${MODEL_NAME} results already generated..."
															
 
																                 else
															
 
																                     python generate_data_model_random_maxwell.py --output ${FILENAME} --interval "${start},${end}" --kind ${mode} --metric ${metric} --scenes "${scenes}" --nb_zones "${nb_zones}" --percent 1 --sep ';' --rowindex '0'
															
 
																-                    python models/${model}_train.py --data ${FILENAME}.train --output ${MODEL_NAME}
															
 
																-                
															
 
																+                    python models/${model}_train.py --data ${FILENAME} --output ${MODEL_NAME}
															
 
																+
															
 
																                     python predict_seuil_expe_maxwell.py --interval "${start},${end}" --model "saved_models/${MODEL_NAME}.joblib" --mode "${mode}" --metric ${metric} --limit_detection '2'
															
 
																                     python save_model_result_in_md_maxwell.py --interval "${start},${end}" --model "saved_models/${MODEL_NAME}.joblib" --mode "${mode}" --metric ${metric}
															
 
																                 fi
															
@@ -66,8 +66,8 @@ for counter in {0..4}; do
 
																     if [ "$counter" -eq "0" ]; then
															
 
																         start=$(($start+50-$half))
															
 
																-    else 
															
 
																+    else
															
 
																         start=$(($start+50))
															
 
																     fi
															
 
																-done
															
 
																+done
															
--- a/models/ensemble_model_train.py
+++ b/models/ensemble_model_train.py
@@ -6,12 +6,11 @@ from sklearn.ensemble import RandomForestClassifier, VotingClassifier
 
																 import sklearn.svm as svm
															
 
																 from sklearn.utils import shuffle
															
 
																 from sklearn.externals import joblib
															
 
																+from sklearn.metrics import accuracy_score, f1_score
															
 
																+from sklearn.model_selection import cross_val_score
															
 
																 import numpy as np
															
 
																-
															
 
																 import pandas as pd
															
 
																-from sklearn.metrics import accuracy_score
															
 
																-
															
 
																 import sys, os, getopt
															
 
																 saved_models_folder = 'saved_models'
															
@@ -19,13 +18,13 @@ current_dirpath = os.getcwd()
 
																 output_model_folder = os.path.join(current_dirpath, saved_models_folder)
															
 
																 def get_best_model(X_train, y_train):
															
 
																-    Cs = [0.001, 0.01, 0.1, 1, 10]
															
 
																-    gammas = [0.001, 0.01, 0.1, 1]
															
 
																+
															
 
																+    Cs = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
															
 
																+    gammas = [0.001, 0.01, 0.1, 1, 5, 10, 100]
															
 
																     param_grid = {'kernel':['rbf'], 'C': Cs, 'gamma' : gammas}
															
 
																-    
															
 
																-    parameters = {'kernel':['rbf'], 'C': np.arange(1, 20)}
															
 
																-    svc = svm.SVC(gamma="scale", probability=True)
															
 
																-    clf = GridSearchCV(svc, parameters, cv=5, scoring='accuracy', verbose=10)
															
 
																+
															
 
																+    svc = svm.SVC(probability=True)
															
 
																+    clf = GridSearchCV(svc, param_grid, cv=10, scoring='accuracy', verbose=10)
															
 
																     clf.fit(X_train, y_train)
															
@@ -60,53 +59,109 @@ def main():
 
																     if not os.path.exists(output_model_folder):
															
 
																         os.makedirs(output_model_folder)
															
 
																-    # get and split data
															
 
																-    dataset = pd.read_csv(p_data_file, header=None, sep=";")
															
 
																+    ########################
															
 
																+    # 1. Get and prepare data
															
 
																+    ########################
															
 
																+    dataset_train = pd.read_csv(p_data_file + '.train', header=None, sep=";")
															
 
																+    dataset_test = pd.read_csv(p_data_file + '.test', header=None, sep=";")
															
 
																+
															
 
																+    # default first shuffle of data
															
 
																+    dataset_train = shuffle(dataset_train)
															
 
																+    dataset_test = shuffle(dataset_test)
															
 
																-     # default first shuffle of data
															
 
																-    dataset = shuffle(dataset)
															
 
																-    
															
 
																     # get dataset with equal number of classes occurences
															
 
																-    noisy_df = dataset[dataset.ix[:, 0] == 1]
															
 
																-    not_noisy_df = dataset[dataset.ix[:, 0] == 0]
															
 
																-    nb_noisy = len(noisy_df.index)
															
 
																-    
															
 
																-    final_df = pd.concat([not_noisy_df[0:nb_noisy], noisy_df])
															
 
																-    #final_df = pd.concat([not_noisy_df, noisy_df])
															
 
																-    
															
 
																+    noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 1]
															
 
																+    not_noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 0]
															
 
																+    nb_noisy_train = len(noisy_df_train.index)
															
 
																+
															
 
																+    noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 1]
															
 
																+    not_noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 0]
															
 
																+    nb_noisy_test = len(noisy_df_test.index)
															
 
																+
															
 
																+    final_df_train = pd.concat([not_noisy_df_train[0:nb_noisy_train], noisy_df_train])
															
 
																+    final_df_test = pd.concat([not_noisy_df_test[0:nb_noisy_test], noisy_df_test])
															
 
																+
															
 
																     # shuffle data another time
															
 
																-    final_df = shuffle(final_df)
															
 
																-    
															
 
																-    print(len(final_df.index))
															
 
																+    final_df_train = shuffle(final_df_train)
															
 
																+    final_df_test = shuffle(final_df_test)
															
 
																-    y_dataset = final_df.ix[:,0]
															
 
																-    x_dataset = final_df.ix[:,1:]
															
 
																+    final_df_train_size = len(final_df_train.index)
															
 
																+    final_df_test_size = len(final_df_test.index)
															
 
																     # use of the whole data set for training
															
 
																-    X_train, X_test, y_train, y_test = train_test_split(x_dataset, y_dataset, test_size=0., random_state=42)
															
 
																+    x_dataset_train = final_df_train.ix[:,1:]
															
 
																+    x_dataset_test = final_df_test.ix[:,1:]
															
 
																+
															
 
																+    y_dataset_train = final_df_train.ix[:,0]
															
 
																+    y_dataset_test = final_df_test.ix[:,0]
															
 
																-    svm_model = get_best_model(X_train, y_train)
															
 
																+    #######################
															
 
																+    # 2. Construction of the model : Ensemble model structure
															
 
																+    #######################
															
 
																+
															
 
																+    svm_model = get_best_model(x_dataset_train, y_dataset_train)
															
 
																     lr_model = LogisticRegression(solver='liblinear', multi_class='ovr', random_state=1)
															
 
																     rf_model = RandomForestClassifier(n_estimators=100, random_state=1)
															
 
																     ensemble_model = VotingClassifier(estimators=[
															
 
																-       ('svm', svm_model), ('lr', lr_model), ('rf', rf_model)],
															
 
																-       voting='soft', weights=[1,1,1])
															
 
																+       ('svm', svm_model), ('lr', lr_model), ('rf', rf_model)], voting='soft', weights=[1,1,1])
															
 
																+
															
 
																+    #######################
															
 
																+    # 3. Fit model : use of cross validation to fit model
															
 
																+    #######################
															
 
																+    print("-------------------------------------------")
															
 
																+    print("Train dataset size: ", final_df_train_size)
															
 
																+    ensemble_model.fit(x_dataset_train, y_dataset_train)
															
 
																+    val_scores = cross_val_score(ensemble_model, x_dataset_train, y_dataset_train, cv=5)
															
 
																+    print("Accuracy: %0.2f (+/- %0.2f)" % (val_scores.mean(), val_scores.std() * 2))
															
 
																+
															
 
																+    ######################
															
 
																+    # 4. Test : Validation and test dataset from .test dataset
															
 
																+    ######################
															
 
																+
															
 
																+    # we need to specify validation size to 20% of whole dataset
															
 
																+    val_set_size = int(final_df_train_size/3)
															
 
																+    test_set_size = val_set_size
															
 
																+
															
 
																+    total_validation_size = val_set_size + test_set_size
															
 
																+
															
 
																+    if final_df_test_size > total_validation_size:
															
 
																+        x_dataset_test = x_dataset_test[0:total_validation_size]
															
 
																+        y_dataset_test = y_dataset_test[0:total_validation_size]
															
 
																+
															
 
																+    X_test, X_val, y_test, y_val = train_test_split(x_dataset_test, y_dataset_test, test_size=0.5, random_state=1)
															
 
																+
															
 
																+    y_test_model = ensemble_model.predict(X_test)
															
 
																+    y_val_model = ensemble_model.predict(X_val)
															
 
																+
															
 
																+    val_accuracy = accuracy_score(y_val, y_val_model)
															
 
																+    test_accuracy = accuracy_score(y_test, y_test_model)
															
 
																+
															
 
																+    val_f1 = f1_score(y_val, y_val_model)
															
 
																+    test_f1 = f1_score(y_test, y_test_model)
															
 
																+
															
 
																+
															
 
																+    ###################
															
 
																+    # 5. Output : Print and write all information in csv
															
 
																+    ###################
															
 
																-    ensemble_model.fit(X_train, y_train)
															
 
																+    print("Validation dataset size ", val_set_size)
															
 
																+    print("Validation: ", val_accuracy)
															
 
																+    print("Validation F1: ", val_f1)
															
 
																+    print("Test dataset size ", test_set_size)
															
 
																+    print("Test: ", val_accuracy)
															
 
																+    print("Test F1: ", test_f1)
															
 
																-    y_train_model = ensemble_model.predict(X_train)
															
 
																-    print("**Train :** " + str(accuracy_score(y_train, y_train_model)))
															
 
																-    #y_pred = ensemble_model.predict(X_test)
															
 
																-    #print("**Test :** " + str(accuracy_score(y_test, y_pred)))
															
 
																+    ##################
															
 
																+    # 6. Save model : create path if not exists
															
 
																+    ##################
															
 
																-    # create path if not exists
															
 
																     if not os.path.exists(saved_models_folder):
															
 
																         os.makedirs(saved_models_folder)
															
 
																-    joblib.dump(ensemble_model, output_model_folder + '/' + p_output + '.joblib') 
															
 
																+    joblib.dump(ensemble_model, output_model_folder + '/' + p_output + '.joblib')
															
 
																 if __name__== "__main__":
															
 
																     main()
															
--- a/models/ensemble_model_train_v2.py
+++ b/models/ensemble_model_train_v2.py
@@ -8,27 +8,25 @@ from sklearn.ensemble import GradientBoostingClassifier
 
																 import sklearn.svm as svm
															
 
																 from sklearn.utils import shuffle
															
 
																 from sklearn.externals import joblib
															
 
																+from sklearn.metrics import accuracy_score, f1_score
															
 
																-import numpy as np
															
 
																+from sklearn.model_selection import cross_val_score
															
 
																+import numpy as np
															
 
																 import pandas as pd
															
 
																-from sklearn.metrics import accuracy_score
															
 
																-
															
 
																 import sys, os, getopt
															
 
																-
															
 
																 saved_models_folder = 'saved_models'
															
 
																 current_dirpath = os.getcwd()
															
 
																 output_model_folder = os.path.join(current_dirpath, saved_models_folder)
															
 
																 def get_best_model(X_train, y_train):
															
 
																-    Cs = [0.001, 0.01, 0.1, 1, 10, 20, 30]
															
 
																-    gammas = [0.001, 0.01, 0.1, 1, 5, 10]
															
 
																+    Cs = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
															
 
																+    gammas = [0.001, 0.01, 0.1, 1, 5, 10, 100]
															
 
																     param_grid = {'kernel':['rbf'], 'C': Cs, 'gamma' : gammas}
															
 
																-    
															
 
																-    parameters = {'kernel':['rbf'], 'C': np.arange(1, 20)}
															
 
																-    svc = svm.SVC(gamma="scale", probability=True, max_iter=10000)
															
 
																-    clf = GridSearchCV(svc, parameters, cv=5, scoring='accuracy', verbose=10)
															
 
																+
															
 
																+    svc = svm.SVC(probability=True)
															
 
																+    clf = GridSearchCV(svc, param_grid, cv=10, scoring='accuracy', verbose=10)
															
 
																     clf.fit(X_train, y_train)
															
@@ -63,57 +61,114 @@ def main():
 
																     if not os.path.exists(output_model_folder):
															
 
																         os.makedirs(output_model_folder)
															
 
																-    # get and split data
															
 
																-    dataset = pd.read_csv(p_data_file, header=None, sep=";")
															
 
																+    # 1. Get and prepare data
															
 
																+    dataset_train = pd.read_csv(p_data_file + '.train', header=None, sep=";")
															
 
																+    dataset_test = pd.read_csv(p_data_file + '.test', header=None, sep=";")
															
 
																+
															
 
																+    # default first shuffle of data
															
 
																+    dataset_train = shuffle(dataset_train)
															
 
																+    dataset_test = shuffle(dataset_test)
															
 
																-     # default first shuffle of data
															
 
																-    dataset = shuffle(dataset)
															
 
																-    
															
 
																     # get dataset with equal number of classes occurences
															
 
																-    noisy_df = dataset[dataset.ix[:, 0] == 1]
															
 
																-    not_noisy_df = dataset[dataset.ix[:, 0] == 0]
															
 
																-    nb_noisy = len(noisy_df.index)
															
 
																-    
															
 
																-    final_df = pd.concat([not_noisy_df[0:nb_noisy], noisy_df[:]])
															
 
																-    #final_df = pd.concat([not_noisy_df, noisy_df])
															
 
																-    
															
 
																+    noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 1]
															
 
																+    not_noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 0]
															
 
																+    nb_noisy_train = len(noisy_df_train.index)
															
 
																+
															
 
																+    noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 1]
															
 
																+    not_noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 0]
															
 
																+    nb_noisy_test = len(noisy_df_test.index)
															
 
																+
															
 
																+    final_df_train = pd.concat([not_noisy_df_train[0:nb_noisy_train], noisy_df_train])
															
 
																+    final_df_test = pd.concat([not_noisy_df_test[0:nb_noisy_test], noisy_df_test])
															
 
																+
															
 
																     # shuffle data another time
															
 
																-    final_df = shuffle(final_df)
															
 
																-    
															
 
																-    print(len(final_df.index))
															
 
																+    final_df_train = shuffle(final_df_train)
															
 
																+    final_df_test = shuffle(final_df_test)
															
 
																+
															
 
																+    final_df_train_size = len(final_df_train.index)
															
 
																+    final_df_test_size = len(final_df_test.index)
															
 
																+
															
 
																+    # use of the whole data set for training
															
 
																+    x_dataset_train = final_df_train.ix[:,1:]
															
 
																+    x_dataset_test = final_df_test.ix[:,1:]
															
 
																+
															
 
																+    y_dataset_train = final_df_train.ix[:,0]
															
 
																+    y_dataset_test = final_df_test.ix[:,0]
															
 
																-    y_dataset = final_df.ix[:,0]
															
 
																-    x_dataset = final_df.ix[:,1:]
															
 
																-    
															
 
																-    X_train, X_test, y_train, y_test = train_test_split(x_dataset, y_dataset, test_size=0., random_state=42)
															
 
																-    svm_model = get_best_model(X_train, y_train)
															
 
																+    #######################
															
 
																+    # 2. Construction of the model : Ensemble model structure
															
 
																+    #######################
															
 
																+
															
 
																+    svm_model = get_best_model(y_dataset_train, y_dataset_train)
															
 
																     knc_model = KNeighborsClassifier(n_neighbors=2)
															
 
																     gbc_model = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)
															
 
																     lr_model = LogisticRegression(solver='liblinear', multi_class='ovr', random_state=1)
															
 
																     rf_model = RandomForestClassifier(n_estimators=100, random_state=1)
															
 
																     ensemble_model = VotingClassifier(estimators=[
															
 
																-       ('lr', lr_model), 
															
 
																+       ('lr', lr_model),
															
 
																        ('knc', knc_model),
															
 
																        ('gbc', gbc_model),
															
 
																-       ('svm', svm_model), 
															
 
																-       ('rf', rf_model)], 
															
 
																+       ('svm', svm_model),
															
 
																+       ('rf', rf_model)],
															
 
																        voting='soft', weights=[1, 1, 1, 1, 1])
															
 
																-    ensemble_model.fit(X_train, y_train)
															
 
																-    y_train_model = ensemble_model.predict(X_train)
															
 
																-    print("**Train :** " + str(accuracy_score(y_train, y_train_model)))
															
 
																+    #######################
															
 
																+    # 3. Fit model : use of cross validation to fit model
															
 
																+    #######################
															
 
																+    print("-------------------------------------------")
															
 
																+    print("Train dataset size: ", final_df_train_size)
															
 
																+    ensemble_model.fit(x_dataset_train, y_dataset_train)
															
 
																+    val_scores = cross_val_score(ensemble_model, x_dataset_train, y_dataset_train, cv=5)
															
 
																+    print("Accuracy: %0.2f (+/- %0.2f)" % (val_scores.mean(), val_scores.std() * 2))
															
 
																+
															
 
																+    ######################
															
 
																+    # 4. Test : Validation and test dataset from .test dataset
															
 
																+    ######################
															
 
																+
															
 
																+    # we need to specify validation size to 20% of whole dataset
															
 
																+    val_set_size = int(final_df_train_size/3)
															
 
																+    test_set_size = val_set_size
															
 
																+
															
 
																+    total_validation_size = val_set_size + test_set_size
															
 
																+
															
 
																+    if final_df_test_size > total_validation_size:
															
 
																+        x_dataset_test = x_dataset_test[0:total_validation_size]
															
 
																+        y_dataset_test = y_dataset_test[0:total_validation_size]
															
 
																+
															
 
																+    X_test, X_val, y_test, y_val = train_test_split(x_dataset_test, y_dataset_test, test_size=0.5, random_state=1)
															
 
																+
															
 
																+    y_test_model = ensemble_model.predict(X_test)
															
 
																+    y_val_model = ensemble_model.predict(X_val)
															
 
																+
															
 
																+    val_accuracy = accuracy_score(y_val, y_val_model)
															
 
																+    test_accuracy = accuracy_score(y_test, y_test_model)
															
 
																+
															
 
																+    val_f1 = f1_score(y_val, y_val_model)
															
 
																+    test_f1 = f1_score(y_test, y_test_model)
															
 
																+
															
 
																+    ###################
															
 
																+    # 5. Output : Print and write all information in csv
															
 
																+    ###################
															
 
																+
															
 
																+    print("Validation dataset size ", val_set_size)
															
 
																+    print("Validation: ", val_accuracy)
															
 
																+    print("Validation F1: ", val_f1)
															
 
																+    print("Test dataset size ", test_set_size)
															
 
																+    print("Test: ", val_accuracy)
															
 
																+    print("Test F1: ", test_f1)
															
 
																-    #y_pred = ensemble_model.predict(X_test)
															
 
																-    #print("**Test :** " + str(accuracy_score(y_test, y_pred)))
															
 
																+    ##################
															
 
																+    # 6. Save model : create path if not exists
															
 
																+    ##################
															
 
																     # create path if not exists
															
 
																     if not os.path.exists(saved_models_folder):
															
 
																         os.makedirs(saved_models_folder)
															
 
																-    joblib.dump(ensemble_model, output_model_folder + '/' +  p_output + '.joblib') 
															
 
																+    joblib.dump(ensemble_model, output_model_folder + '/' +  p_output + '.joblib')
															
 
																 if __name__== "__main__":
															
 
																     main()
															
--- a/models/svm_model_train.py
+++ b/models/svm_model_train.py
@@ -1,16 +1,16 @@
 
																 from sklearn.model_selection import train_test_split
															
 
																 from sklearn.model_selection import GridSearchCV
															
 
																-
															
 
																-from sklearn.utils import shuffle
															
 
																+from sklearn.linear_model import LogisticRegression
															
 
																+from sklearn.ensemble import RandomForestClassifier, VotingClassifier
															
 
																 import sklearn.svm as svm
															
 
																+from sklearn.utils import shuffle
															
 
																 from sklearn.externals import joblib
															
 
																+from sklearn.metrics import accuracy_score, f1_score
															
 
																+from sklearn.model_selection import cross_val_score
															
 
																 import numpy as np
															
 
																-
															
 
																 import pandas as pd
															
 
																-from sklearn.metrics import accuracy_score
															
 
																-
															
 
																 import sys, os, getopt
															
 
																 saved_models_folder = 'saved_models'
															
@@ -18,10 +18,13 @@ current_dirpath = os.getcwd()
 
																 output_model_folder = os.path.join(current_dirpath, saved_models_folder)
															
 
																 def get_best_model(X_train, y_train):
															
 
																-    
															
 
																-    parameters = {'kernel':['rbf'], 'C': np.arange(1, 20)}
															
 
																-    svc = svm.SVC(gamma="scale")
															
 
																-    clf = GridSearchCV(svc, parameters, cv=5, scoring='accuracy', verbose=10)
															
 
																+
															
 
																+    Cs = [0.001, 0.01, 0.1, 1, 10, 100, 1000]
															
 
																+    gammas = [0.001, 0.01, 0.1, 1, 5, 10, 100]
															
 
																+    param_grid = {'kernel':['rbf'], 'C': Cs, 'gamma' : gammas}
															
 
																+
															
 
																+    svc = svm.SVC(probability=True)
															
 
																+    clf = GridSearchCV(svc, param_grid, cv=10, scoring='accuracy', verbose=10)
															
 
																     clf.fit(X_train, y_train)
															
@@ -56,41 +59,103 @@ def main():
 
																     if not os.path.exists(output_model_folder):
															
 
																         os.makedirs(output_model_folder)
															
 
																-    dataset = pd.read_csv(p_data_file, header=None, sep=";")
															
 
																+    ########################
															
 
																+    # 1. Get and prepare data
															
 
																+    ########################
															
 
																+    dataset_train = pd.read_csv(p_data_file + '.train', header=None, sep=";")
															
 
																+    dataset_test = pd.read_csv(p_data_file + '.test', header=None, sep=";")
															
 
																     # default first shuffle of data
															
 
																-    dataset = shuffle(dataset)
															
 
																-    
															
 
																+    dataset_train = shuffle(dataset_train)
															
 
																+    dataset_test = shuffle(dataset_test)
															
 
																+
															
 
																     # get dataset with equal number of classes occurences
															
 
																-    noisy_df = dataset[dataset.ix[:, 0] == 1]
															
 
																-    not_noisy_df = dataset[dataset.ix[:, 0] == 0]
															
 
																-    nb_noisy = len(noisy_df.index)
															
 
																+    noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 1]
															
 
																+    not_noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 0]
															
 
																+    nb_noisy_train = len(noisy_df_train.index)
															
 
																+
															
 
																+    noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 1]
															
 
																+    not_noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 0]
															
 
																+    nb_noisy_test = len(noisy_df_test.index)
															
 
																+
															
 
																+    final_df_train = pd.concat([not_noisy_df_train[0:nb_noisy_train], noisy_df_train])
															
 
																+    final_df_test = pd.concat([not_noisy_df_test[0:nb_noisy_test], noisy_df_test])
															
 
																-    final_df = pd.concat([not_noisy_df[0:nb_noisy], noisy_df])
															
 
																-    #final_df = pd.concat([not_noisy_df, noisy_df])
															
 
																-  
															
 
																     # shuffle data another time
															
 
																-    final_df = shuffle(final_df)
															
 
																+    final_df_train = shuffle(final_df_train)
															
 
																+    final_df_test = shuffle(final_df_test)
															
 
																-    y_dataset = final_df.ix[:,0]
															
 
																-    x_dataset = final_df.ix[:,1:]
															
 
																+    final_df_train_size = len(final_df_train.index)
															
 
																+    final_df_test_size = len(final_df_test.index)
															
 
																     # use of the whole data set for training
															
 
																-    X_train, X_test, y_train, y_test = train_test_split(x_dataset, y_dataset, test_size=0., random_state=42)
															
 
																+    x_dataset_train = final_df_train.ix[:,1:]
															
 
																+    x_dataset_test = final_df_test.ix[:,1:]
															
 
																+
															
 
																+    y_dataset_train = final_df_train.ix[:,0]
															
 
																+    y_dataset_test = final_df_test.ix[:,0]
															
 
																+
															
 
																+    #######################
															
 
																+    # 2. Construction of the model : Ensemble model structure
															
 
																+    #######################
															
 
																-    svm_model = get_best_model(X_train, y_train)
															
 
																+    svm_model = get_best_model(x_dataset_train, y_dataset_train)
															
 
																-    y_train_model = svm_model.predict(X_train)
															
 
																-    print("**Train :** " + str(accuracy_score(y_train, y_train_model)))
															
 
																+    #######################
															
 
																+    # 3. Fit model : use of cross validation to fit model
															
 
																+    #######################
															
 
																+    print("-------------------------------------------")
															
 
																+    print("Train dataset size: ", final_df_train_size)
															
 
																+    svm_model.fit(x_dataset_train, y_dataset_train)
															
 
																+    val_scores = cross_val_score(svm_model, x_dataset_train, y_dataset_train, cv=5)
															
 
																+    print("Accuracy: %0.2f (+/- %0.2f)" % (val_scores.mean(), val_scores.std() * 2))
															
 
																-    #y_pred = svm_model.predict(X_test)
															
 
																-    #print("**Test :** " + str(accuracy_score(y_test, y_pred)))
															
 
																+    ######################
															
 
																+    # 4. Test : Validation and test dataset from .test dataset
															
 
																+    ######################
															
 
																+
															
 
																+    # we need to specify validation size to 20% of whole dataset
															
 
																+    val_set_size = int(final_df_train_size/3)
															
 
																+    test_set_size = val_set_size
															
 
																+
															
 
																+    total_validation_size = val_set_size + test_set_size
															
 
																+
															
 
																+    if final_df_test_size > total_validation_size:
															
 
																+        x_dataset_test = x_dataset_test[0:total_validation_size]
															
 
																+        y_dataset_test = y_dataset_test[0:total_validation_size]
															
 
																+
															
 
																+    X_test, X_val, y_test, y_val = train_test_split(x_dataset_test, y_dataset_test, test_size=0.5, random_state=1)
															
 
																+
															
 
																+    y_test_model = svm_model.predict(X_test)
															
 
																+    y_val_model = svm_model.predict(X_val)
															
 
																+
															
 
																+    val_accuracy = accuracy_score(y_val, y_val_model)
															
 
																+    test_accuracy = accuracy_score(y_test, y_test_model)
															
 
																+
															
 
																+    val_f1 = f1_score(y_val, y_val_model)
															
 
																+    test_f1 = f1_score(y_test, y_test_model)
															
 
																+
															
 
																+
															
 
																+    ###################
															
 
																+    # 5. Output : Print and write all information in csv
															
 
																+    ###################
															
 
																+
															
 
																+    print("Validation dataset size ", val_set_size)
															
 
																+    print("Validation: ", val_accuracy)
															
 
																+    print("Validation F1: ", val_f1)
															
 
																+    print("Test dataset size ", test_set_size)
															
 
																+    print("Test: ", val_accuracy)
															
 
																+    print("Test F1: ", test_f1)
															
 
																+
															
 
																+    ##################
															
 
																+    # 6. Save model : create path if not exists
															
 
																+    ##################
															
 
																     # create path if not exists
															
 
																     if not os.path.exists(saved_models_folder):
															
 
																         os.makedirs(saved_models_folder)
															
 
																-        
															
 
																-    joblib.dump(svm_model, output_model_folder + '/' + p_output + '.joblib') 
															
 
																+
															
 
																+    joblib.dump(svm_model, output_model_folder + '/' + p_output + '.joblib')
															
 
																 if __name__== "__main__":
															
 
																     main()
															
--- a/runAll_maxwell.sh
+++ b/runAll_maxwell.sh
@@ -7,7 +7,7 @@ mkdir -p models_info
 
																 touch ${file_path}
															
 
																 # add of header
															
 
																-echo 'model_name; vector_size; start; end; nb_zones; metric; mode; train; test; global' >> ${file_path}
															
 
																+echo 'model_name; vector_size; start; end; nb_zones; metric; mode; train; val; test; F1_train; F1_val; F1_test' >> ${file_path}
															
 
																 for size in {"4","8","16","26","32","40"}; do
															
--- a/save_model_result_in_md_maxwell.py
+++ b/save_model_result_in_md_maxwell.py
@@ -52,25 +52,25 @@ def main():
 
																         else:
															
 
																             assert False, "unhandled option"
															
 
																-    
															
 
																+
															
 
																     # call model and get global result in scenes
															
 
																     begin, end = p_interval
															
 
																-    bash_cmd = "bash testModelByScene_maxwell.sh '" + str(begin) + "' '" + str(end) + "' '" + p_model_file + "' '" + p_mode + "' '" + p_metric + "'" 
															
 
																+    bash_cmd = "bash testModelByScene_maxwell.sh '" + str(begin) + "' '" + str(end) + "' '" + p_model_file + "' '" + p_mode + "' '" + p_metric + "'"
															
 
																     print(bash_cmd)
															
 
																-     
															
 
																+
															
 
																     ## call command ##
															
 
																     p = subprocess.Popen(bash_cmd, stdout=subprocess.PIPE, shell=True)
															
 
																-    
															
 
																+
															
 
																     (output, err) = p.communicate()
															
 
																-    
															
 
																+
															
 
																     ## Wait for result ##
															
 
																     p_status = p.wait()
															
 
																     if not os.path.exists(markdowns_folder):
															
 
																         os.makedirs(markdowns_folder)
															
 
																-        
															
 
																+
															
 
																     # get model name to construct model
															
 
																     md_model_path = os.path.join(markdowns_folder, p_model_file.split('/')[-1].replace('.joblib', '.md'))
															
@@ -87,7 +87,7 @@ def main():
 
																             # get all map information
															
 
																             for t_map_file in maps_files:
															
 
																-                
															
 
																+
															
 
																                 file_path = os.path.join(model_map_info_path, t_map_file)
															
 
																                 with open(file_path, 'r') as map_file:
															
@@ -100,56 +100,117 @@ def main():
 
																                         f.write(line)
															
 
																         f.close()
															
 
																-    
															
 
																+
															
 
																     # Keep model information to compare
															
 
																     current_model_name = p_model_file.split('/')[-1].replace('.joblib', '')
															
 
																+    # Prepare writing in .csv file
															
 
																     output_final_file_path = os.path.join(markdowns_folder, final_csv_model_comparisons)
															
 
																     output_final_file = open(output_final_file_path, "a")
															
 
																     print(current_model_name)
															
 
																-    # reconstruct data filename 
															
 
																+    # reconstruct data filename
															
 
																     for name in models_name:
															
 
																         if name in current_model_name:
															
 
																             current_data_file_path = os.path.join('data', current_model_name.replace(name, 'data_maxwell'))
															
 
																-    
															
 
																-    data_filenames = [current_data_file_path + '.train', current_data_file_path + '.test', 'all']
															
 
																-    accuracy_scores = []
															
 
																+    model_scores = []
															
 
																-    # go ahead each file
															
 
																-    for data_file in data_filenames:
															
 
																+    ########################
															
 
																+    # 1. Get and prepare data
															
 
																+    ########################
															
 
																+    dataset_train = pd.read_csv(current_data_file_path + '.train', header=None, sep=";")
															
 
																+    dataset_test = pd.read_csv(current_data_file_path + '.test', header=None, sep=";")
															
 
																-        if data_file == 'all':
															
 
																+    # default first shuffle of data
															
 
																+    dataset_train = shuffle(dataset_train)
															
 
																+    dataset_test = shuffle(dataset_test)
															
 
																-            dataset_train = pd.read_csv(data_filenames[0], header=None, sep=";")
															
 
																-            dataset_test = pd.read_csv(data_filenames[1], header=None, sep=";")
															
 
																-        
															
 
																-            dataset = pd.concat([dataset_train, dataset_test])
															
 
																-        else:
															
 
																-            dataset = pd.read_csv(data_file, header=None, sep=";")
															
 
																+    # get dataset with equal number of classes occurences
															
 
																+    noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 1]
															
 
																+    not_noisy_df_train = dataset_train[dataset_train.ix[:, 0] == 0]
															
 
																+    nb_noisy_train = len(noisy_df_train.index)
															
 
																+
															
 
																+    noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 1]
															
 
																+    not_noisy_df_test = dataset_test[dataset_test.ix[:, 0] == 0]
															
 
																+    nb_noisy_test = len(noisy_df_test.index)
															
 
																+
															
 
																+    final_df_train = pd.concat([not_noisy_df_train[0:nb_noisy_train], noisy_df_train])
															
 
																+    final_df_test = pd.concat([not_noisy_df_test[0:nb_noisy_test], noisy_df_test])
															
 
																+
															
 
																+    # shuffle data another time
															
 
																+    final_df_train = shuffle(final_df_train)
															
 
																+    final_df_test = shuffle(final_df_test)
															
 
																+
															
 
																+    final_df_train_size = len(final_df_train.index)
															
 
																+    final_df_test_size = len(final_df_test.index)
															
 
																-        y_dataset = dataset.ix[:,0]
															
 
																-        x_dataset = dataset.ix[:,1:]
															
 
																+    # use of the whole data set for training
															
 
																+    x_dataset_train = final_df_train.ix[:,1:]
															
 
																+    x_dataset_test = final_df_test.ix[:,1:]
															
 
																-        model = joblib.load(p_model_file)
															
 
																+    y_dataset_train = final_df_train.ix[:,0]
															
 
																+    y_dataset_test = final_df_test.ix[:,0]
															
 
																-        y_pred = model.predict(x_dataset)   
															
 
																+    #######################
															
 
																+    # 2. Getting model
															
 
																+    #######################
															
 
																-        # add of score obtained
															
 
																-        accuracy_scores.append(accuracy_score(y_dataset, y_pred))
															
 
																+    model = joblib.load(p_model_file)
															
 
																+
															
 
																+    #######################
															
 
																+    # 3. Fit model : use of cross validation to fit model
															
 
																+    #######################
															
 
																+    model.fit(x_dataset_train, y_dataset_train)
															
 
																+    val_scores = cross_val_score(model, x_dataset_train, y_dataset_train, cv=5)
															
 
																+
															
 
																+    ######################
															
 
																+    # 4. Test : Validation and test dataset from .test dataset
															
 
																+    ######################
															
 
																+
															
 
																+    # we need to specify validation size to 20% of whole dataset
															
 
																+    val_set_size = int(final_df_train_size/3)
															
 
																+    test_set_size = val_set_size
															
 
																+
															
 
																+    total_validation_size = val_set_size + test_set_size
															
 
																+
															
 
																+    if final_df_test_size > total_validation_size:
															
 
																+        x_dataset_test = x_dataset_test[0:total_validation_size]
															
 
																+        y_dataset_test = y_dataset_test[0:total_validation_size]
															
 
																+
															
 
																+    X_test, X_val, y_test, y_val = train_test_split(x_dataset_test, y_dataset_test, test_size=0.5, random_state=1)
															
 
																+
															
 
																+    y_test_model = ensemble_model.predict(X_test)
															
 
																+    y_val_model = ensemble_model.predict(X_val)
															
 
																+
															
 
																+    val_accuracy = accuracy_score(y_val, y_val_model)
															
 
																+    test_accuracy = accuracy_score(y_test, y_test_model)
															
 
																+
															
 
																+    y_train_model = model.predict(x_dataset_train)
															
 
																+    train_f1 = f1_score(y_dataset_train, y_train_model)
															
 
																+    val_f1 = f1_score(y_val, y_val_model)
															
 
																+    test_f1 = f1_score(y_test, y_test_model)
															
 
																+
															
 
																+    # add of scores
															
 
																+    model_scores.append(val_scores.mean())
															
 
																+    model_scores.append(val_accuracy)
															
 
																+    model_scores.append(test_accuracy)
															
 
																+
															
 
																+    model_scores.append(train_f1)
															
 
																+    model_scores.append(val_f1)
															
 
																+    model_scores.append(test_f1)
															
 
																     # TODO : improve...
															
 
																     # check if it's always the case...
															
 
																     nb_zones = data_filenames[0].split('_')[7]
															
 
																     final_file_line = current_model_name + '; ' + str(end - begin) + '; ' + str(begin) + '; ' + str(end) + '; ' + str(nb_zones) + '; ' + p_metric + '; ' + p_mode
															
 
																-    
															
 
																-    for s in accuracy_scores:
															
 
																+
															
 
																+    for s in model_scores:
															
 
																         final_file_line += '; ' + str(s)
															
 
																     output_final_file.write(final_file_line + '\n')
															
 
																 if __name__== "__main__":
															
 
																-    main()
															
 
																+    main()