4 年之前 · 4e639e89aa
--- a/find_best_attributes_surrogate.py
+++ b/find_best_attributes_surrogate.py
@@ -27,19 +27,20 @@ import custom_config as cfg
 
																 import models as mdl
															
 
																 from optimization.ILSSurrogate import ILSSurrogate
															
 
																-from macop.solutions.BinarySolution import BinarySolution
															
 
																+from macop.solutions.discrete.BinarySolution import BinarySolution
															
 
																+from macop.evaluators.base import Evaluator
															
 
																-from macop.operators.mutators.SimpleMutation import SimpleMutation
															
 
																-from macop.operators.mutators.SimpleBinaryMutation import SimpleBinaryMutation
															
 
																-from macop.operators.crossovers.SimpleCrossover import SimpleCrossover
															
 
																-from macop.operators.crossovers.RandomSplitCrossover import RandomSplitCrossover
															
 
																+from macop.operators.discrete.mutators.SimpleMutation import SimpleMutation
															
 
																+from macop.operators.discrete.mutators.SimpleBinaryMutation import SimpleBinaryMutation
															
 
																+from macop.operators.discrete.crossovers.SimpleCrossover import SimpleCrossover
															
 
																+from macop.operators.discrete.crossovers.RandomSplitCrossover import RandomSplitCrossover
															
 
																-from macop.operators.policies.UCBPolicy import UCBPolicy
															
 
																+from macop.operators.policies.reinforcement.UCBPolicy import UCBPolicy
															
 
																-from macop.callbacks.BasicCheckpoint import BasicCheckpoint
															
 
																-from macop.callbacks.UCBCheckpoint import UCBCheckpoint
															
 
																+from macop.callbacks.classicals.BasicCheckpoint import BasicCheckpoint
															
 
																+from macop.callbacks.policies.UCBCheckpoint import UCBCheckpoint
															
 
																-from sklearn.ensemble import RandomForestClassifier
															
 
																+#from sklearn.ensemble import RandomForestClassifier
															
 
																 # variables and parameters
															
 
																 models_list         = cfg.models_names_list
															
@@ -143,37 +144,40 @@ def main():
 
																         return BinarySolution([], p_length
															
 
																         ).random(validator)
															
 
																-    # define evaluate function here (need of data information)
															
 
																-    def evaluate(solution):
															
 
																-        start = datetime.datetime.now()
															
 
																+    class SurrogateEvaluator(Evaluator):
															
 
																-        # get indices of filters data to use (filters selection from solution)
															
 
																-        indices = []
															
 
																+        # define evaluate function here (need of data information)
															
 
																+        def compute(solution):
															
 
																-        for index, value in enumerate(solution.data): 
															
 
																-            if value == 1: 
															
 
																-                indices.append(index) 
															
 
																+            start = datetime.datetime.now()
															
 
																-        # keep only selected filters from solution
															
 
																-        x_train_filters = x_train.iloc[:, indices]
															
 
																-        y_train_filters = y_train
															
 
																-        x_test_filters = x_test.iloc[:, indices]
															
 
																-        
															
 
																-        model = _get_best_model(x_train_filters, y_train_filters)
															
 
																-        #model = RandomForestClassifier(n_estimators=10)
															
 
																-        #model = model.fit(x_train_filters, y_train_filters)
															
 
																-        
															
 
																-        y_test_model = model.predict(x_test_filters)
															
 
																-        test_roc_auc = roc_auc_score(y_test, y_test_model)
															
 
																+            # get indices of filters data to use (filters selection from solution)
															
 
																+            indices = []
															
 
																-        end = datetime.datetime.now()
															
 
																+            for index, value in enumerate(solution.data): 
															
 
																+                if value == 1: 
															
 
																+                    indices.append(index) 
															
 
																-        diff = end - start
															
 
																+            # keep only selected filters from solution
															
 
																+            x_train_filters = self.data['x_train'].iloc[:, indices]
															
 
																+            y_train_filters = self.data['y_train']
															
 
																+            x_test_filters = self.data['x_test'].iloc[:, indices]
															
 
																+            
															
 
																+            model = _get_best_model(x_train_filters, y_train_filters)
															
 
																+            #model = RandomForestClassifier(n_estimators=10)
															
 
																+            #model = model.fit(x_train_filters, y_train_filters)
															
 
																+            
															
 
																+            y_test_model = model.predict(x_test_filters)
															
 
																+            test_roc_auc = roc_auc_score(self.data['y_test'], y_test_model)
															
 
																-        print("Real evaluation took: {}, score found: {}".format(divmod(diff.days * 86400 + diff.seconds, 60), test_roc_auc))
															
 
																+            end = datetime.datetime.now()
															
 
																-        return test_roc_auc
															
 
																+            diff = end - start
															
 
																+
															
 
																+            print("Real evaluation took: {}, score found: {}".format(divmod(diff.days * 86400 + diff.seconds, 60), test_roc_auc))
															
 
																+
															
 
																+            return test_roc_auc
															
 
																     # build all output folder and files based on `output` name
															
@@ -194,7 +198,7 @@ def main():
 
																     ucb_backup_file_path = os.path.join(backup_model_folder, p_output + '_ucbPolicy.csv')
															
 
																     # prepare optimization algorithm (only use of mutation as only ILS are used here, and local search need only local permutation)
															
 
																-    operators = [SimpleBinaryMutation(), SimpleMutation()]
															
 
																+    operators = [SimpleBinaryMutation(), SimpleMutation(), SimpleCrossover(), RandomSplitCrossover()]
															
 
																     policy = UCBPolicy(operators)
															
 
																     # define first line if necessary
															
@@ -203,19 +207,19 @@ def main():
 
																             f.write('x;y\n')
															
 
																     # custom ILS for surrogate use
															
 
																-    algo = ILSSurrogate(_initalizer=init, 
															
 
																-                        _evaluator=evaluate, # same evaluator by defadefaultult, as we will use the surrogate function
															
 
																-                        _operators=operators, 
															
 
																-                        _policy=policy, 
															
 
																-                        _validator=validator,
															
 
																-                        _surrogate_file_path=surrogate_output_model,
															
 
																-                        _start_train_surrogate=p_start, # start learning and using surrogate after 1000 real evaluation
															
 
																-                        _solutions_file=surrogate_output_data,
															
 
																-                        _ls_train_surrogate=1,
															
 
																-                        _maximise=True)
															
 
																+    algo = ILSSurrogate(initalizer=init, 
															
 
																+                        evaluator=SurrogateEvaluator(data={'x_train': x_train, 'y_train': y_train, 'x_test': x_test, 'y_test': y_test}), # same evaluator by default, as we will use the surrogate function
															
 
																+                        operators=operators, 
															
 
																+                        policy=policy, 
															
 
																+                        validator=validator,
															
 
																+                        surrogate_file_path=surrogate_output_model,
															
 
																+                        start_train_surrogate=p_start, # start learning and using surrogate after 1000 real evaluation
															
 
																+                        solutions_file=surrogate_output_data,
															
 
																+                        ls_train_surrogate=5,
															
 
																+                        maximise=True)
															
 
																-    algo.addCallback(BasicCheckpoint(_every=1, _filepath=backup_file_path))
															
 
																-    algo.addCallback(UCBCheckpoint(_every=1, _filepath=ucb_backup_file_path))
															
 
																+    algo.addCallback(BasicCheckpoint(every=1, filepath=backup_file_path))
															
 
																+    algo.addCallback(UCBCheckpoint(every=1, filepath=ucb_backup_file_path))
															
 
																     bestSol = algo.run(p_ils_iteration, p_ls_iteration)