jerome.buisine
/
Thesis-CST-Report


			
							12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182
							\section{Autres attributs}

Après les différents résultats d'autres approches ont été explorées dans le but d'améliorer la prédiction du modèle. La remarque quand aux problème rencontrés précédemment concernés le fait que le modèle ne pouvait pas comprendre correctement un interval de données, d'où la transition sur la sélection automatisées de composantes du vecteur SV. Ici, nous nous intéresserons à des approches orientées statistiques.


\subsection{Description des extractions}

L'idée principale de ces nouveaux calculs d'attributs viennent du fait que l'on va s'interesser à des valeurs statistiques issues des valeurs de pixels des blocs de la zone (redécoupage de l'image).  L'hypothèse était ici que le fait de travailler directement sur des parties plus petites de l'image permettrait d'extraire des propriétés plus intéressantes. La compression SVD est aussi étudiée dans le cadre de ces approches.

\vspace{2mm}
\noindent
Voici la liste des extractions statistiques d'une zone proposées dans le cadre de la thèse :


\begin{itemize}
	\item \textbf{sub\_blocks\_stats :} la zone est découpée en 4 blocs de taille identiques ($100x100$). Pour chaque bloc on extrait des statistiques telles que la moyenne, la médiane, le premier quartil, le troisième quartil et la variance du vecteur SV extrait de ce bloc. L'aire sous la courbe (l'intégrale) SV est également calculée (suivant la méthode trapézoidale). L'ensemble des statistiques de chaque bloc sont concaténées et utilisées comme entrée au modèle. 
	
	\item \textbf{sub\_blocks\_area :} la zone est découpée en 16 blocs de taille identiques ($50x50$). Pour chaque bloc l'aire sous la courbe (l'intégrale) SV est calculée (suivant la méthode trapézoidale). L'ensemble des aires de chaque bloc sont concaténées et utilisées comme entrée au modèle. 
	
	\item \textbf{ sub\_blocks\_stats\_reduced :} la zone est découpée en 4 blocs de taille identiques ($100x100$). Pour chaque bloc on extrait des statistiques telles que la moyenne, la médiane, le premier quartil, le troisième quartil et la variance du vecteur SV extrait de ce bloc. L'ensemble des statistiques de chaque bloc sont concaténées et utilisées comme entrée au modèle. 
	
	\item \textbf{sub\_blocks\_area\_normed :} Les valeurs utilisées en entrée sont identiques à la l'extraction \enquote{sub\_blocks\_area :} mais sont ici normalisées.
	
	\item \textbf{mscn\_var\_4 :} la zone est découpée en 4 blocs. Pour chaque bloc on réalisé la transformation MSCN (voir annexe \ref{appendices_mscn_transformation}). Pour chaque nouvelle matrice on calcule la variance. Le vecteur d'information statistiques est ensuite utilisé comme entrée au modèle.
	
	\item \textbf{mscn\_var\_16 :} Même processus que pour l'extraction proposée dans \enquote{mscn\_var\_4} mais avec ici 16 blocs.
	
	\item \textbf{mscn\_var\_64 :} Même processus que pour l'extraction proposée dans \enquote{mscn\_var\_4} mais avec ici 64 blocs.
	
	
	\item \textbf{mscn\_var\_16\_max :} Même processus que pour l'extraction proposée \enquote{mscn\_var\_16} mais les valeurs du vecteur d'entrée sont ordonnées de la valeur de variance la plus grande à la plus petite.
	
	\item \textbf{mscn\_var\_64\_max :} Même processus que pour l'extraction proposée \enquote{mscn\_var\_64} mais les valeurs du vecteur d'entrée sont ordonnées de la valeur de variance la plus grande à la plus petite.
\end{itemize}


\subsection{Paramètres et résultats}

\subsubsection{Paramètres}
Tout comme les calculs effectués sur les composantes du vecteur de valeurs singulières, les paramètres concernant les modèles et la normalisation des données sont identiques. Pour rappel, l'annexe \ref{appendix:models_architecture} présente ces différents modèles. Enfin, comme précédemment, la normalisation des données d'entrée est effectuée de la manière suivante :

\begin{itemize}
	\item \textbf{svd :} sans normalisation
	\item \textbf{svdn :} le sous-vector est normalisé avec ces propres valeurs
	\item \textbf{svdne :} le sous-vector est normalisé en utilisant les valeurs minimale et maximale
	des sous-vectors ou composantes de l'ensemble du dataset.
\end{itemize}

\subsubsection{Résultats}

Le tableau \ref{table:03_Research_02_best_models_statistics} indique les 5 meilleurs modèles obtenus dans le cadre de cette étude. Les simulations du meilleur modèle obtenu sont également disponibles.

% TODO : ajout simulation
%\ref{simu1} et \ref{simu2}.
% ensemble_model_v2_N24_B0_E24_nb_zones_12_sub_blocks_stats_reduced_svd


\begin{table}[h!]
	\centering
	\begin{tabular}{|>{\scriptsize}l|>{\scriptsize}c|>{\scriptsize}r|>{\scriptsize}r|>{\scriptsize}r|>{\scriptsize}r|>{\scriptsize}r|}
		\hline
		Model & feature & size & zones & ROC Train & ROC Val & ROC Test\\
		\hline
		M3 & sub\_block\_stats\_reduced (svd) & 24 & 12 & 1 & 0.8288 & 0.8565 \\
		M2 & sub\_block\_stats\_reduced (svd) & 24 & 10 & 1 & 0.8714 & 0.8539 \\
		M2 & sub\_block\_stats\_reduced (svd) & 24 & 12 & 1 & 0.8030 & 0.8342 \\
		M2 & sub\_block\_stats\_reduced (svd) & 24 & 8 & 1 & 0.8119 & 0.8294 \\
		M1 & sub\_block\_stats (svd) & 24 & 8 & 1 & 0.8595 & 0.8376 \\
		\hline
	\end{tabular}
	\caption{5 meilleurs modèles avec approche statistiques sur le score ROC AUC}
	\label{table:03_Research_02_best_models_statistics}
\end{table}

\subsection{Conclusion}

% TODO : finir conclusion
- Overfitting

\vspace{2mm}
\noindent
\textbf{Ressources :} \href{https://github.com/prise-3d/Thesis-NoiseDetection-attributes}{Projet github} comprenant l'ensemble des développements réalisés dans cette section.