6 年前 · 57e264ffb9
--- a/ensemble_model_train.py
+++ b/ensemble_model_train.py
@@ -4,11 +4,11 @@ from sklearn.linear_model import LogisticRegression
 
																 from sklearn.ensemble import RandomForestClassifier, VotingClassifier
															
 
																 import sklearn.svm as svm
															
 
																+from sklearn.utils import shuffle
															
 
																 from sklearn.externals import joblib
															
 
																 import numpy as np
															
 
																-
															
 
																 import pandas as pd
															
 
																 from sklearn.metrics import accuracy_score
															
@@ -57,8 +57,23 @@ def main():
 
																     # get and split data
															
 
																     dataset = pd.read_csv(p_data_file, header=None, sep=";")
															
 
																-    y_dataset = dataset.ix[:,0]
															
 
																-    x_dataset = dataset.ix[:,1:]
															
 
																+     # default first shuffle of data
															
 
																+    dataset = shuffle(dataset)
															
 
																+    
															
 
																+    # get dataset with equal number of classes occurences
															
 
																+    noisy_df = dataset[dataset.ix[:, 0] == 1]
															
 
																+    not_noisy_df = dataset[dataset.ix[:, 0] == 0]
															
 
																+    nb_not_noisy = len(not_noisy_df.index)
															
 
																+
															
 
																+    final_df = pd.concat([not_noisy_df, noisy_df[0:nb_not_noisy]])
															
 
																+  
															
 
																+    # shuffle data another time
															
 
																+    final_df = shuffle(final_df)
															
 
																+    
															
 
																+    print(len(final_df.index))
															
 
																+
															
 
																+    y_dataset = final_df.ix[:,0]
															
 
																+    x_dataset = final_df.ix[:,1:]
															
 
																     X_train, X_test, y_train, y_test = train_test_split(x_dataset, y_dataset, test_size=0.3333, random_state=42)
															
--- a/generateAndTrainEnsemble_random.sh
+++ b/generateAndTrainEnsemble_random.sh
@@ -0,0 +1,60 @@
 
																+#! bin/bash
															
 
																+
															
 
																+if [ -z "$1" ]
															
 
																+  then
															
 
																+    echo "No argument supplied"
															
 
																+    echo "Need of vector size"
															
 
																+    exit 1
															
 
																+fi
															
 
																+
															
 
																+if [ -z "$2" ]
															
 
																+  then
															
 
																+    echo "No argument supplied"
															
 
																+    echo "Need of model output name"
															
 
																+    exit 1
															
 
																+fi
															
 
																+
															
 
																+VECTOR_SIZE=$1
															
 
																+INPUT_MODEL_NAME=$2
															
 
																+
															
 
																+# selection of six scenes
															
 
																+scenes="A, B, C, D, E, F, G, H, I"
															
 
																+
															
 
																+for size in {"4","8","16","26","32","40"}; do
															
 
																+
															
 
																+  start=0
															
 
																+  for counter in {0..4}; do
															
 
																+    end=$(($start+$size))
															
 
																+
															
 
																+    if [ "$end" -gt "$VECTOR_SIZE" ]; then
															
 
																+        start=$(($VECTOR_SIZE-$size))
															
 
																+        end=$(($VECTOR_SIZE))
															
 
																+    fi
															
 
																+
															
 
																+    for nb_zones in {2,3,4,5,6,7,8,9,10}; do
															
 
																+
															
 
																+        for mode in {"svd","svdn","svdne"}; do
															
 
																+
															
 
																+            FILENAME="data_svm/data_${mode}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}_random"
															
 
																+            MODEL_NAME="saved_models/${INPUT_MODEL_NAME}_${mode}_N${size}_B${start}_E${end}_nb_zones_${nb_zones}"
															
 
																+
															
 
																+            echo $FILENAME
															
 
																+            python generate_data_svm_random.py --output ${FILENAME} --interval "${start},${end}" --kind ${mode} --scenes "${scenes}" --nb_zones "${nb_zones}" --percent 1 --sep ';' --rowindex '0'
															
 
																+            python ensemble_model_train.py --data ${FILENAME}.train --output ${MODEL_NAME}
															
 
																+            bash testModelByScene.sh "${begin}" "${end}" "${MODEL_NAME}.joblib" "${mode}" >> ${FILENAME}.tex
															
 
																+
															
 
																+        done
															
 
																+    done
															
 
																+if [ -z "$2" ]
															
 
																+  then
															
 
																+    echo "No argument supplied"
															
 
																+    echo "Need of model output name"
															
 
																+    exit 1
															
 
																+fi
															
 
																+
															
 
																+VECTOR_SIZE=$1
															
 
																+INPUT_MODEL_NAME=$2
															
 
																+    start=$(($start+50))
															
 
																+  done
															
 
																+
															
 
																+done
															
--- a/generateAndTrainSVM_random.sh
+++ b/generateAndTrainSVM_random.sh
@@ -42,6 +42,8 @@ for size in {"4","8","16","26","32","40"}; do
 
																             python generate_data_svm_random.py --output ${FILENAME} --interval "${start},${end}" --kind ${mode} --scenes "${scenes}" --nb_zones "${nb_zones}" --percent 1 --sep ';' --rowindex '0'
															
 
																             python svm_model_train.py --data ${FILENAME}.train --output ${MODEL_NAME} &
															
 
																+            # add computation of scenes score and LaTeX display of its
															
 
																+
															
 
																         done
															
 
																     done
															
 
																 if [ -z "$2" ]
															
--- a/generate_data_svm.py
+++ b/generate_data_svm.py
@@ -201,7 +201,7 @@ def main():
 
																         scenes_selected.append(scenes[index])
															
 
																     for scene in scenes_selected:
															
 
																-        print(scene)
															
 
																+        print(scene + " : ")
															
 
																     # create database using img folder (generate first time only)
															
 
																     generate_data_svm(p_filename, p_interval, p_kind, scenes_selected, p_zones, p_percent, p_sep, p_rowindex)
															
--- a/predictSVM_random.sh
+++ b/predictSVM_random.sh
@@ -8,8 +8,6 @@ if [ -z "$1" ]
 
																 fi
															
 
																 VECTOR_SIZE=$1
															
 
																-# selection of six scenes
															
 
																-scenes="Appart1opt02, Bureau1, Cendrier, PNDVuePlongeante, SdbDroite, Selles"
															
 
																 for size in {"4","8","16","26","32","40"}; do
															
--- a/prediction.py
+++ b/prediction.py
@@ -48,7 +48,7 @@ def main():
 
																     accuracy = accuracy_score(y_dataset, y_pred)
															
 
																-    print("Accuracy found %s " % str(accuracy))
															
 
																+    print(str(accuracy))
															
 
																     with open(p_output, 'w') as f:
															
 
																         f.write("Accuracy found %s " % str(accuracy))
															
--- a/svm_model_train.py
+++ b/svm_model_train.py
@@ -1,12 +1,13 @@
 
																 from sklearn.model_selection import train_test_split
															
 
																 from sklearn.model_selection import GridSearchCV
															
 
																+from sklearn.utils import shuffle
															
 
																+
															
 
																 import sklearn.svm as svm
															
 
																 from sklearn.externals import joblib
															
 
																 import numpy as np
															
 
																-
															
 
																 import pandas as pd
															
 
																 from sklearn.metrics import accuracy_score
															
@@ -54,8 +55,21 @@ def main():
 
																     dataset = pd.read_csv(p_data_file, header=None, sep=";")
															
 
																-    y_dataset = dataset.ix[:,0]
															
 
																-    x_dataset = dataset.ix[:,1:]
															
 
																+    # default first shuffle of data
															
 
																+    dataset = shuffle(dataset)
															
 
																+    
															
 
																+    # get dataset with equal number of classes occurences
															
 
																+    noisy_df = dataset[dataset.ix[:, 0] == 1]
															
 
																+    not_noisy_df = dataset[dataset.ix[:, 0] == 0]
															
 
																+    nb_not_noisy = len(not_noisy_df.index)
															
 
																+
															
 
																+    final_df = pd.concat([not_noisy_df, noisy_df[0:nb_not_noisy]])
															
 
																+  
															
 
																+    # shuffle data another time
															
 
																+    final_df = shuffle(final_df)
															
 
																+
															
 
																+    y_dataset = final_df.ix[:,0]
															
 
																+    x_dataset = final_df.ix[:,1:]
															
 
																     X_train, X_test, y_train, y_test = train_test_split(x_dataset, y_dataset, test_size=0.4, random_state=42)
															
--- a/testModelByScene.sh
+++ b/testModelByScene.sh
@@ -31,18 +31,16 @@ fi
 
																 INPUT_BEGIN=$1
															
 
																 INPUT_END=$2
															
 
																 INPUT_MODEL=$3
															
 
																-INPUT_MODE$4
															
 
																+INPUT_MODE=$4
															
 
																 zones="0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15"
															
 
																 for scene in {"A","B","C","D","E","F","G","H","I"}; do
															
 
																-  for mode in {"svd","svdn","svdne"}; do
															
 
																+  FILENAME="data_svm/data_${mode}_B${INPUT_BEGIN}_E${INPUT_END}_scene${scene}"
															
 
																-      FILENAME="data_svm/data_${mode}_B${INPUT_BEGIN}_E${INPUT_END}_scene${scene}"
															
 
																+  python generate_data_svm.py --output ${FILENAME} --interval "${INPUT_BEGIN},${INPUT_END}" --kind ${INPUT_MODE} --scenes "${scene}" --zones "${zones}" --percent 1 --sep ";" --rowindex "0"
															
 
																-      python generate_data_svm.py --output ${FILENAME} --interval "${INPUT_BEGIN},${INPUT_END}" --kind ${mode} --scenes "${scene}" --zones "${zones}" --percent 1 --sep ";" --rowindex "0"
															
 
																+  python prediction.py --data "$FILENAME.train" --model ${INPUT_MODEL} --output "${INPUT_MODEL}_Scene${scene}_mode_${INPUT_MODE}.prediction"
															
 
																-      python prediction.py --data "$FILENAME.train" --model ${INPUT_MODEL} --output "${INPUT_MODEL}_Scene${scene}_mode_${mode}.prediction"
															
 
																-  done
															
 
																 done