{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "import seaborn as sns\n", "import matplotlib.pyplot as plt\n", "\n", "sns.set(style=\"white\")" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# Useful function\n", "\n", "def get_highest_values(arr, n):\n", " return np.array(arr).argsort()[-n:][::-1]\n", "\n", "def get_lowest_values(arr, n):\n", " return np.array(arr).argsort()[::-1][-n:][::-1]" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "data_file = \"data/temp.train\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Correlation analysis between SVD features" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | 1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "... | \n", "191 | \n", "192 | \n", "193 | \n", "194 | \n", "195 | \n", "196 | \n", "197 | \n", "198 | \n", "199 | \n", "200 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0.652851 | \n", "0.080402 | \n", "0.056751 | \n", "0.039518 | \n", "0.033673 | \n", "0.027273 | \n", "0.023607 | \n", "0.020556 | \n", "0.017670 | \n", "0.013568 | \n", "... | \n", "0.000035 | \n", "0.000028 | \n", "0.000027 | \n", "0.000024 | \n", "0.000021 | \n", "0.000017 | \n", "0.000009 | \n", "0.000008 | \n", "0.000004 | \n", "1.686444e-06 | \n", "
1 | \n", "0.652760 | \n", "0.080416 | \n", "0.056754 | \n", "0.039546 | \n", "0.033672 | \n", "0.027291 | \n", "0.023601 | \n", "0.020557 | \n", "0.017670 | \n", "0.013580 | \n", "... | \n", "0.000036 | \n", "0.000029 | \n", "0.000026 | \n", "0.000024 | \n", "0.000020 | \n", "0.000014 | \n", "0.000013 | \n", "0.000009 | \n", "0.000008 | \n", "2.844966e-06 | \n", "
2 | \n", "0.643783 | \n", "0.080578 | \n", "0.057158 | \n", "0.039712 | \n", "0.033941 | \n", "0.027758 | \n", "0.023486 | \n", "0.020380 | \n", "0.017896 | \n", "0.013507 | \n", "... | \n", "0.000083 | \n", "0.000069 | \n", "0.000064 | \n", "0.000057 | \n", "0.000049 | \n", "0.000037 | \n", "0.000029 | \n", "0.000019 | \n", "0.000011 | \n", "3.036373e-06 | \n", "
3 | \n", "0.650533 | \n", "0.080679 | \n", "0.056969 | \n", "0.039813 | \n", "0.033782 | \n", "0.027492 | \n", "0.023604 | \n", "0.020538 | \n", "0.017768 | \n", "0.013596 | \n", "... | \n", "0.000056 | \n", "0.000053 | \n", "0.000051 | \n", "0.000037 | \n", "0.000033 | \n", "0.000025 | \n", "0.000021 | \n", "0.000015 | \n", "0.000010 | \n", "1.173903e-06 | \n", "
4 | \n", "0.652726 | \n", "0.080419 | \n", "0.056751 | \n", "0.039549 | \n", "0.033665 | \n", "0.027298 | \n", "0.023603 | \n", "0.020559 | \n", "0.017683 | \n", "0.013588 | \n", "... | \n", "0.000041 | \n", "0.000030 | \n", "0.000029 | \n", "0.000023 | \n", "0.000019 | \n", "0.000014 | \n", "0.000012 | \n", "0.000010 | \n", "0.000007 | \n", "7.965241e-07 | \n", "
5 rows × 200 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "191 | \n", "192 | \n", "193 | \n", "194 | \n", "195 | \n", "196 | \n", "197 | \n", "198 | \n", "199 | \n", "200 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0 | \n", "0.652851 | \n", "0.080402 | \n", "0.056751 | \n", "0.039518 | \n", "0.033673 | \n", "0.027273 | \n", "0.023607 | \n", "0.020556 | \n", "0.017670 | \n", "... | \n", "0.000035 | \n", "0.000028 | \n", "0.000027 | \n", "0.000024 | \n", "0.000021 | \n", "0.000017 | \n", "0.000009 | \n", "0.000008 | \n", "0.000004 | \n", "1.686444e-06 | \n", "
1 | \n", "0 | \n", "0.652760 | \n", "0.080416 | \n", "0.056754 | \n", "0.039546 | \n", "0.033672 | \n", "0.027291 | \n", "0.023601 | \n", "0.020557 | \n", "0.017670 | \n", "... | \n", "0.000036 | \n", "0.000029 | \n", "0.000026 | \n", "0.000024 | \n", "0.000020 | \n", "0.000014 | \n", "0.000013 | \n", "0.000009 | \n", "0.000008 | \n", "2.844966e-06 | \n", "
2 | \n", "1 | \n", "0.643783 | \n", "0.080578 | \n", "0.057158 | \n", "0.039712 | \n", "0.033941 | \n", "0.027758 | \n", "0.023486 | \n", "0.020380 | \n", "0.017896 | \n", "... | \n", "0.000083 | \n", "0.000069 | \n", "0.000064 | \n", "0.000057 | \n", "0.000049 | \n", "0.000037 | \n", "0.000029 | \n", "0.000019 | \n", "0.000011 | \n", "3.036373e-06 | \n", "
3 | \n", "0 | \n", "0.650533 | \n", "0.080679 | \n", "0.056969 | \n", "0.039813 | \n", "0.033782 | \n", "0.027492 | \n", "0.023604 | \n", "0.020538 | \n", "0.017768 | \n", "... | \n", "0.000056 | \n", "0.000053 | \n", "0.000051 | \n", "0.000037 | \n", "0.000033 | \n", "0.000025 | \n", "0.000021 | \n", "0.000015 | \n", "0.000010 | \n", "1.173903e-06 | \n", "
4 | \n", "0 | \n", "0.652726 | \n", "0.080419 | \n", "0.056751 | \n", "0.039549 | \n", "0.033665 | \n", "0.027298 | \n", "0.023603 | \n", "0.020559 | \n", "0.017683 | \n", "... | \n", "0.000041 | \n", "0.000030 | \n", "0.000029 | \n", "0.000023 | \n", "0.000019 | \n", "0.000014 | \n", "0.000012 | \n", "0.000010 | \n", "0.000007 | \n", "7.965241e-07 | \n", "
5 rows × 201 columns
\n", "