New Start

2025-12-04 16:53:58 -04:00
parent 3657e8ea18
commit c5fb865583
9 changed files with 1043 additions and 13 deletions
--- a/run_deap.py
+++ b/run_deap.py
@@ -5,7 +5,6 @@ from pathlib import Path

 import numpy as np
 import mlflow
-from datetime import datetime
 from deap import algorithms
 from deap.tools.emo import sortNondominated
 import pandas as pd
@@ -16,16 +15,6 @@ from src.preprocessing import build_preprocessor
 from src.models import make_model
 from src.stability import compute_shap_matrix

-# Main network
-# mlflow.set_tracking_uri("http://192.168.2.169:5000")
-
-# Cluster Subnet
-mlflow.set_tracking_uri("http://10.10.0.5:5000")
-
-# Network with DNS resolution (specified hosts or Tailnet)
-#mlflow.set_tracking_uri("http://medea:5000")
-
-

 def save_checkpoint(path, gen, pop, seed):
    state = {
@@ -54,8 +43,7 @@ def main():
    ap.add_argument("--pop-size", type=int, default=24)
    ap.add_argument("--seed", type=int, default=42)
    ap.add_argument("--cv-folds", type=int, default=3)
-    experiment_name = f"deap_nsga_shap_{datetime.now().strftime('%Y%m%d_%H%M%S')}"    
-    ap.add_argument("--experiment", default=experiment_name)
+    ap.add_argument("--experiment", default="deap_nsga_shap")
    ap.add_argument("--checkpoint-every", type=int, default=5)
    ap.add_argument(
        "--shap-pf-eval-rows",
--- a/src/protocols_methodology/automl_evaluate.py
+++ b/src/protocols_methodology/automl_evaluate.py
@@ -0,0 +1,103 @@
+import numpy as np
+from sklearn.pipeline import Pipeline
+from sklearn.metrics import mean_squared_error, brier_score_loss
+
+from src.preprocessing import build_preprocessor
+from src.models import make_model
+from src.stability import compute_shap_matrix, shap_stability_from_matrices
+
+
+def evaluate_config_protocol_aware(
+    X,
+    y,
+    task,
+    algo,
+    model_params,
+    pre_cfg,
+    protocol_fn,
+    protocol_params,
+    seed=0,
+    max_eval_rows=1024,
+    bg_size=128,
+):
+    rng = np.random.RandomState(seed)
+
+    # fixed SHAP evaluation pool per individual evaluation
+    eval_size = min(max_eval_rows, len(X))
+    eval_idx = rng.choice(len(X), size=eval_size, replace=False)
+    X_eval_fixed = X.iloc[eval_idx]
+
+    # freeze preprocessing dimensionality
+    fixed_poly_degree = pre_cfg.get("poly_degree", 1)
+    probe_pre = build_preprocessor(
+        X, task, pre_cfg, fixed_k=None, fixed_poly_degree=fixed_poly_degree
+    )
+    Xp = probe_pre.fit_transform(X, y)
+    n_after_prep = Xp.shape[1]
+    desired_k = pre_cfg.get("select_k", None)
+    fixed_k = None if desired_k is None else int(min(max(1, desired_k), n_after_prep))
+
+    shap_mats_with_names = []
+    losses = []
+    fit_times = []
+    shap_times = []
+
+    replicates = protocol_fn(X, y, seed=seed, **protocol_params)
+
+    for rep_id, rep in enumerate(replicates):
+        if rep["type"] in ["cv", "bootstrap"]:
+            tr, te = rep["train_idx"], rep["test_idx"]
+            X_fit, y_fit = X.iloc[tr], y.iloc[tr]
+            X_test, y_test = X.iloc[te], y.iloc[te]
+        else:
+            X_fit, y_fit = rep["X_noisy"], y
+            X_test, y_test = X, y
+
+        preproc = build_preprocessor(
+            X, task, pre_cfg, fixed_k=fixed_k, fixed_poly_degree=fixed_poly_degree
+        )
+        model = make_model(task, algo, model_params, random_state=seed + rep_id)
+        pipe = Pipeline([("pre", preproc), ("model", model)])
+
+        shap_vals, t_fit, t_shap, feat_names = compute_shap_matrix(
+            pipe,
+            X_fit=X_fit,
+            y_fit=y_fit,
+            X_eval=X_eval_fixed,
+            task_type=task,
+            bg_size=bg_size,
+            max_eval_rows=max_eval_rows,
+            rng_seed=seed,
+        )
+        shap_mats_with_names.append((shap_vals, feat_names))
+        fit_times.append(t_fit)
+        shap_times.append(t_shap)
+
+        if task == "regression":
+            y_pred = pipe.predict(X_test)
+            loss = float(mean_squared_error(y_test, y_pred))
+        else:
+            if hasattr(pipe.named_steps["model"], "predict_proba"):
+                y_prob = pipe.predict_proba(X_test)[:, 1]
+            else:
+                scores = pipe.decision_function(X_test)
+                scores = (scores - scores.min()) / (scores.max() - scores.min() + 1e-8)
+                y_prob = scores
+            loss = float(brier_score_loss(y_test, y_prob))
+
+        losses.append(loss)
+
+    agg_std, stability, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+    mse_like = float(np.mean(losses))
+    stability_val = float(stability)
+
+    meta = {
+        "loss_std": float(np.std(losses)),
+        "fit_time_mean": float(np.mean(fit_times)) if fit_times else 0.0,
+        "shap_time_mean": float(np.mean(shap_times)) if shap_times else 0.0,
+        "inst_feat_std": float(agg_std),
+        "n_replicates": len(replicates),
+    }
+
+    return mse_like, stability_val, meta
--- a/src/protocols_methodology/automl_protocol_adapters.py
+++ b/src/protocols_methodology/automl_protocol_adapters.py
@@ -0,0 +1,24 @@
+from src.protocols_methodology.protocols import (
+    kfold_indices,
+    bootstrap_indices,
+    noise_perturbations,
+)
+
+def cv_protocol(X, y, n_folds=5, seed=0):
+    reps = []
+    for tr, te in kfold_indices(len(X), n_folds, seed):
+        reps.append({"type": "cv", "train_idx": tr, "test_idx": te})
+    return reps
+
+def bootstrap_protocol(X, y, n_bootstrap=30, seed=0):
+    reps = []
+    for tr, te in bootstrap_indices(len(X), n_bootstrap, seed):
+        reps.append({"type": "bootstrap", "train_idx": tr, "test_idx": te})
+    return reps
+
+def noise_protocol(X, y, n_replicates=30, noise_std=0.01, seed=0):
+    levels = [noise_std] * n_replicates
+    reps = []
+    for sigma, X_noisy in noise_perturbations(X, levels, seed):
+        reps.append({"type": "noise", "sigma": sigma, "X_noisy": X_noisy})
+    return reps
--- a/src/protocols_methodology/exp_bootstrap.py
+++ b/src/protocols_methodology/exp_bootstrap.py
@@ -0,0 +1,195 @@
+import argparse
+import json
+from pathlib import Path
+import numpy as np
+import pandas as pd
+from sklearn.pipeline import Pipeline
+from sklearn.metrics import mean_squared_error, brier_score_loss
+
+from src.data_openml import load_dataset
+from src.preprocessing import build_preprocessor
+from src.models import make_model
+from src.stability import compute_shap_matrix, shap_stability_from_matrices
+from src.protocols_methodology.protocols import bootstrap_indices
+
+
+
+def run_bootstrap_protocol(
+    X,
+    y,
+    task,
+    algo,
+    model_params,
+    preproc_cfg,
+    n_bootstrap=30,
+    seed=0,
+    max_eval_rows=1024,
+    bg_size=128,
+):
+    rng = np.random.RandomState(seed)
+
+    eval_size = min(max_eval_rows, len(X))
+    eval_idx = rng.choice(len(X), size=eval_size, replace=False)
+    X_eval_fixed = X.iloc[eval_idx]
+
+    fixed_poly_degree = preproc_cfg.get("poly_degree", 1)
+    probe_pre = build_preprocessor(
+        X, task, preproc_cfg, fixed_k=None, fixed_poly_degree=fixed_poly_degree
+    )
+    Xp = probe_pre.fit_transform(X, y)
+    n_after_prep = Xp.shape[1]
+    desired_k = preproc_cfg.get("select_k", None)
+    fixed_k = None if desired_k is None else int(min(max(1, desired_k), n_after_prep))
+
+    shap_mats_with_names = []
+    rep_rows = []
+
+    for rep_id, (tr, te) in enumerate(bootstrap_indices(len(X), n_bootstrap, seed)):
+        X_boot = X.iloc[tr]
+        y_boot = y.iloc[tr]
+
+        preproc = build_preprocessor(
+            X, task, preproc_cfg, fixed_k=fixed_k, fixed_poly_degree=fixed_poly_degree
+        )
+        model = make_model(task, algo, model_params, random_state=seed + rep_id)
+        pipe = Pipeline([("pre", preproc), ("model", model)])
+
+        shap_vals, t_fit, t_shap, feat_names = compute_shap_matrix(
+            pipe,
+            X_fit=X_boot,
+            y_fit=y_boot,
+            X_eval=X_eval_fixed,
+            task_type=task,
+            bg_size=bg_size,
+            max_eval_rows=max_eval_rows,
+            rng_seed=seed,
+        )
+        shap_mats_with_names.append((shap_vals, feat_names))
+
+        # OOB loss on te to match your earlier logic
+        if task == "regression":
+            y_pred = pipe.predict(X.iloc[te])
+            loss = float(mean_squared_error(y.iloc[te], y_pred))
+        else:
+            if hasattr(pipe.named_steps["model"], "predict_proba"):
+                y_prob = pipe.predict_proba(X.iloc[te])[:, 1]
+            else:
+                scores = pipe.decision_function(X.iloc[te])
+                scores = (scores - scores.min()) / (scores.max() - scores.min() + 1e-8)
+                y_prob = scores
+            loss = float(brier_score_loss(y.iloc[te], y_prob))
+
+        agg_std_rep, stability_rep, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+        rep_rows.append(
+            {
+                "seed": seed,
+                "replicate_id": rep_id,
+                "protocol": "bootstrap",
+                "loss": loss,
+                "fit_time": float(t_fit),
+                "shap_time": float(t_shap),
+                "inst_feat_std_rep": float(agg_std_rep),
+                "stability_rep": float(stability_rep),
+            }
+        )
+
+    agg_std, stability, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+    summary = {
+        "seed": seed,
+        "protocol": "bootstrap",
+        "n_replicates": n_bootstrap,
+        "loss_mean": float(pd.Series([r["loss"] for r in rep_rows]).mean()),
+        "loss_std": float(pd.Series([r["loss"] for r in rep_rows]).std(ddof=0)),
+        "fit_time_mean": float(pd.Series([r["fit_time"] for r in rep_rows]).mean()),
+        "shap_time_mean": float(pd.Series([r["shap_time"] for r in rep_rows]).mean()),
+        "inst_feat_std": float(agg_std),
+        "stability": float(stability),
+    }
+
+    return summary, rep_rows
+
+
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument("--dataset", required=True, choices=["adult", "cal_housing"])
+    ap.add_argument("--algo", default="rf", choices=["rf", "gbt", "mlp"])
+    ap.add_argument("--n-bootstrap", type=int, default=30)
+    ap.add_argument("--seeds", type=int, nargs="+", default=[0, 1, 2, 3, 4])
+    ap.add_argument("--outdir", default="runs/protocol_bootstrap")
+    args = ap.parse_args()
+
+    X, y, task = load_dataset(args.dataset)
+
+    preproc_cfg = {
+        "num_impute_strategy": "median",
+        "cat_impute_strategy": "most_frequent",
+        "scaler": "standard",
+        "poly_degree": 1,
+        "select_k": None,
+    }
+
+    if args.algo == "rf":
+        model_params = {"n_estimators": 300, "max_depth": 8, "max_features": "sqrt"}
+    elif args.algo == "gbt":
+        model_params = {"n_estimators": 300, "max_depth": 3, "learning_rate": 0.05}
+    else:
+        model_params = {
+            "hidden_layers": (64, 64),
+            "activation": "relu",
+            "alpha": 1e-4,
+            "lr_init": 1e-3,
+            "max_iter": 200,
+        }
+
+    outdir = Path(args.outdir)
+    outdir.mkdir(parents=True, exist_ok=True)
+
+    summaries = []
+    all_rep_rows = []
+
+    for seed in args.seeds:
+        summary, rep_rows = run_bootstrap_protocol(
+            X,
+            y,
+            task,
+            algo=args.algo,
+            model_params=model_params,
+            preproc_cfg=preproc_cfg,
+            n_bootstrap=args.n_bootstrap,
+            seed=seed,
+        )
+        summaries.append(summary)
+        all_rep_rows.extend(rep_rows)
+
+    summary_path = outdir / f"{args.dataset}_{args.algo}_bootstrap_summary.csv"
+    reps_path = outdir / f"{args.dataset}_{args.algo}_bootstrap_replicates.csv"
+    cfg_path = outdir / f"config_{args.dataset}_{args.algo}_bootstrap.json"
+
+    pd.DataFrame(summaries).to_csv(summary_path, index=False)
+    pd.DataFrame(all_rep_rows).to_csv(reps_path, index=False)
+
+    with open(cfg_path, "w") as f:
+        json.dump(
+            {
+                "dataset": args.dataset,
+                "algo": args.algo,
+                "task": task,
+                "protocol": "bootstrap",
+                "protocol_params": {"n_bootstrap": args.n_bootstrap, "seeds": args.seeds},
+                "model_params": model_params,
+                "preproc_cfg": preproc_cfg,
+            },
+            f,
+            indent=2,
+        )
+
+    print("Saved:")
+    print(summary_path)
+    print(reps_path)
+    print(cfg_path)
+
+
+if __name__ == "__main__":
+    main()
--- a/src/protocols_methodology/exp_cv.py
+++ b/src/protocols_methodology/exp_cv.py
@@ -0,0 +1,195 @@
+import argparse
+import json
+from pathlib import Path
+import numpy as np
+import pandas as pd
+from sklearn.pipeline import Pipeline
+from sklearn.metrics import mean_squared_error, brier_score_loss
+
+from src.data_openml import load_dataset
+from src.preprocessing import build_preprocessor
+from src.models import make_model
+from src.stability import compute_shap_matrix, shap_stability_from_matrices
+from src.protocols_methodology.protocols import kfold_indices
+
+def run_cv_protocol(
+    X,
+    y,
+    task,
+    algo,
+    model_params,
+    preproc_cfg,
+    n_folds=5,
+    seed=0,
+    max_eval_rows=1024,
+    bg_size=128,
+):
+    rng = np.random.RandomState(seed)
+
+    # fixed SHAP evaluation pool per seed
+    eval_size = min(max_eval_rows, len(X))
+    eval_idx = rng.choice(len(X), size=eval_size, replace=False)
+    X_eval_fixed = X.iloc[eval_idx]
+
+    # freeze preprocessor dimensions for stability comparability
+    fixed_poly_degree = preproc_cfg.get("poly_degree", 1)
+    probe_pre = build_preprocessor(
+        X, task, preproc_cfg, fixed_k=None, fixed_poly_degree=fixed_poly_degree
+    )
+    Xp = probe_pre.fit_transform(X, y)
+    n_after_prep = Xp.shape[1]
+    desired_k = preproc_cfg.get("select_k", None)
+    fixed_k = None if desired_k is None else int(min(max(1, desired_k), n_after_prep))
+
+    shap_mats_with_names = []
+    rep_rows = []
+
+    # your exact old KFold generator
+    for rep_id, (tr, te) in enumerate(kfold_indices(len(X), n_folds, seed)):
+        preproc = build_preprocessor(
+            X, task, preproc_cfg, fixed_k=fixed_k, fixed_poly_degree=fixed_poly_degree
+        )
+        model = make_model(task, algo, model_params, random_state=seed + rep_id)
+        pipe = Pipeline([("pre", preproc), ("model", model)])
+
+        shap_vals, t_fit, t_shap, feat_names = compute_shap_matrix(
+            pipe,
+            X_fit=X.iloc[tr],
+            y_fit=y.iloc[tr],
+            X_eval=X_eval_fixed,
+            task_type=task,
+            bg_size=bg_size,
+            max_eval_rows=max_eval_rows,
+            rng_seed=seed,
+        )
+        shap_mats_with_names.append((shap_vals, feat_names))
+
+        # loss on fold test
+        if task == "regression":
+            y_pred = pipe.predict(X.iloc[te])
+            loss = float(mean_squared_error(y.iloc[te], y_pred))
+        else:
+            if hasattr(pipe.named_steps["model"], "predict_proba"):
+                y_prob = pipe.predict_proba(X.iloc[te])[:, 1]
+            else:
+                scores = pipe.decision_function(X.iloc[te])
+                scores = (scores - scores.min()) / (scores.max() - scores.min() + 1e-8)
+                y_prob = scores
+            loss = float(brier_score_loss(y.iloc[te], y_prob))
+
+        # running stability so replicates can be plotted as a trajectory
+        agg_std_rep, stability_rep, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+        rep_rows.append(
+            {
+                "seed": seed,
+                "replicate_id": rep_id,
+                "protocol": "cv",
+                "loss": loss,
+                "fit_time": float(t_fit),
+                "shap_time": float(t_shap),
+                "inst_feat_std_rep": float(agg_std_rep),
+                "stability_rep": float(stability_rep),
+            }
+        )
+
+    agg_std, stability, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+    summary = {
+        "seed": seed,
+        "protocol": "cv",
+        "n_replicates": n_folds,
+        "loss_mean": float(pd.Series([r["loss"] for r in rep_rows]).mean()),
+        "loss_std": float(pd.Series([r["loss"] for r in rep_rows]).std(ddof=0)),
+        "fit_time_mean": float(pd.Series([r["fit_time"] for r in rep_rows]).mean()),
+        "shap_time_mean": float(pd.Series([r["shap_time"] for r in rep_rows]).mean()),
+        "inst_feat_std": float(agg_std),
+        "stability": float(stability),
+    }
+
+    return summary, rep_rows
+
+
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument("--dataset", required=True, choices=["adult", "cal_housing"])
+    ap.add_argument("--algo", default="rf", choices=["rf", "gbt", "mlp"])
+    ap.add_argument("--n-folds", type=int, default=5)
+    ap.add_argument("--seeds", type=int, nargs="+", default=[0, 1, 2, 3, 4])
+    ap.add_argument("--outdir", default="runs/protocol_cv")
+    args = ap.parse_args()
+
+    X, y, task = load_dataset(args.dataset)
+
+    preproc_cfg = {
+        "num_impute_strategy": "median",
+        "cat_impute_strategy": "most_frequent",
+        "scaler": "standard",
+        "poly_degree": 1,
+        "select_k": None,
+    }
+
+    # fixed family for methodology experiments
+    if args.algo == "rf":
+        model_params = {"n_estimators": 300, "max_depth": 8, "max_features": "sqrt"}
+    elif args.algo == "gbt":
+        model_params = {"n_estimators": 300, "max_depth": 3, "learning_rate": 0.05}
+    else:
+        model_params = {
+            "hidden_layers": (64, 64),
+            "activation": "relu",
+            "alpha": 1e-4,
+            "lr_init": 1e-3,
+            "max_iter": 200,
+        }
+
+    outdir = Path(args.outdir)
+    outdir.mkdir(parents=True, exist_ok=True)
+
+    summaries = []
+    all_rep_rows = []
+
+    for seed in args.seeds:
+        summary, rep_rows = run_cv_protocol(
+            X,
+            y,
+            task,
+            algo=args.algo,
+            model_params=model_params,
+            preproc_cfg=preproc_cfg,
+            n_folds=args.n_folds,
+            seed=seed,
+        )
+        summaries.append(summary)
+        all_rep_rows.extend(rep_rows)
+
+    summary_path = outdir / f"{args.dataset}_{args.algo}_cv_summary.csv"
+    reps_path = outdir / f"{args.dataset}_{args.algo}_cv_replicates.csv"
+    cfg_path = outdir / f"config_{args.dataset}_{args.algo}_cv.json"
+
+    pd.DataFrame(summaries).to_csv(summary_path, index=False)
+    pd.DataFrame(all_rep_rows).to_csv(reps_path, index=False)
+
+    with open(cfg_path, "w") as f:
+        json.dump(
+            {
+                "dataset": args.dataset,
+                "algo": args.algo,
+                "task": task,
+                "protocol": "cv",
+                "protocol_params": {"n_folds": args.n_folds, "seeds": args.seeds},
+                "model_params": model_params,
+                "preproc_cfg": preproc_cfg,
+            },
+            f,
+            indent=2,
+        )
+
+    print("Saved:")
+    print(summary_path)
+    print(reps_path)
+    print(cfg_path)
+
+
+if __name__ == "__main__":
+    main()
--- a/src/protocols_methodology/exp_noise.py
+++ b/src/protocols_methodology/exp_noise.py
@@ -0,0 +1,206 @@
+import argparse
+import json
+from pathlib import Path
+import numpy as np
+import pandas as pd
+from sklearn.pipeline import Pipeline
+from sklearn.metrics import mean_squared_error, brier_score_loss
+
+from src.data_openml import load_dataset
+from src.preprocessing import build_preprocessor
+from src.models import make_model
+from src.stability import compute_shap_matrix, shap_stability_from_matrices
+from src.protocols_methodology.protocols import noise_perturbations
+
+
+
+def run_noise_protocol(
+    X,
+    y,
+    task,
+    algo,
+    model_params,
+    preproc_cfg,
+    n_replicates=30,
+    noise_std=0.01,
+    seed=0,
+    max_eval_rows=1024,
+    bg_size=128,
+):
+    rng = np.random.RandomState(seed)
+
+    eval_size = min(max_eval_rows, len(X))
+    eval_idx = rng.choice(len(X), size=eval_size, replace=False)
+    X_eval_fixed = X.iloc[eval_idx]
+
+    fixed_poly_degree = preproc_cfg.get("poly_degree", 1)
+    probe_pre = build_preprocessor(
+        X, task, preproc_cfg, fixed_k=None, fixed_poly_degree=fixed_poly_degree
+    )
+    Xp = probe_pre.fit_transform(X, y)
+    n_after_prep = Xp.shape[1]
+    desired_k = preproc_cfg.get("select_k", None)
+    fixed_k = None if desired_k is None else int(min(max(1, desired_k), n_after_prep))
+
+    shap_mats_with_names = []
+    rep_rows = []
+
+    # use your old noise generator for consistency
+    # it expects a list of levels, so repeat noise_std
+    levels = [noise_std] * n_replicates
+    noisy_sets = noise_perturbations(X, levels, seed)
+
+    for rep_id, (sigma, X_noisy) in enumerate(noisy_sets):
+        preproc = build_preprocessor(
+            X, task, preproc_cfg, fixed_k=fixed_k, fixed_poly_degree=fixed_poly_degree
+        )
+        model = make_model(task, algo, model_params, random_state=seed + rep_id)
+        pipe = Pipeline([("pre", preproc), ("model", model)])
+
+        shap_vals, t_fit, t_shap, feat_names = compute_shap_matrix(
+            pipe,
+            X_fit=X_noisy,
+            y_fit=y,
+            X_eval=X_eval_fixed,
+            task_type=task,
+            bg_size=bg_size,
+            max_eval_rows=max_eval_rows,
+            rng_seed=seed,
+        )
+        shap_mats_with_names.append((shap_vals, feat_names))
+
+        # evaluate on clean X to measure robustness of noisy training
+        if task == "regression":
+            y_pred = pipe.predict(X)
+            loss = float(mean_squared_error(y, y_pred))
+        else:
+            if hasattr(pipe.named_steps["model"], "predict_proba"):
+                y_prob = pipe.predict_proba(X)[:, 1]
+            else:
+                scores = pipe.decision_function(X)
+                scores = (scores - scores.min()) / (scores.max() - scores.min() + 1e-8)
+                y_prob = scores
+            loss = float(brier_score_loss(y, y_prob))
+
+        agg_std_rep, stability_rep, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+        rep_rows.append(
+            {
+                "seed": seed,
+                "replicate_id": rep_id,
+                "protocol": "noise",
+                "sigma": float(sigma),
+                "loss": loss,
+                "fit_time": float(t_fit),
+                "shap_time": float(t_shap),
+                "inst_feat_std_rep": float(agg_std_rep),
+                "stability_rep": float(stability_rep),
+            }
+        )
+
+    agg_std, stability, _, _ = shap_stability_from_matrices(shap_mats_with_names)
+
+    summary = {
+        "seed": seed,
+        "protocol": "noise",
+        "n_replicates": n_replicates,
+        "noise_std": float(noise_std),
+        "loss_mean": float(pd.Series([r["loss"] for r in rep_rows]).mean()),
+        "loss_std": float(pd.Series([r["loss"] for r in rep_rows]).std(ddof=0)),
+        "fit_time_mean": float(pd.Series([r["fit_time"] for r in rep_rows]).mean()),
+        "shap_time_mean": float(pd.Series([r["shap_time"] for r in rep_rows]).mean()),
+        "inst_feat_std": float(agg_std),
+        "stability": float(stability),
+    }
+
+    return summary, rep_rows
+
+
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument("--dataset", required=True, choices=["adult", "cal_housing"])
+    ap.add_argument("--algo", default="rf", choices=["rf", "gbt", "mlp"])
+    ap.add_argument("--n-replicates", type=int, default=30)
+    ap.add_argument("--noise-std", type=float, default=0.01)
+    ap.add_argument("--seeds", type=int, nargs="+", default=[0, 1, 2, 3, 4])
+    ap.add_argument("--outdir", default="runs/protocol_noise")
+    args = ap.parse_args()
+
+    X, y, task = load_dataset(args.dataset)
+
+    preproc_cfg = {
+        "num_impute_strategy": "median",
+        "cat_impute_strategy": "most_frequent",
+        "scaler": "standard",
+        "poly_degree": 1,
+        "select_k": None,
+    }
+
+    if args.algo == "rf":
+        model_params = {"n_estimators": 300, "max_depth": 8, "max_features": "sqrt"}
+    elif args.algo == "gbt":
+        model_params = {"n_estimators": 300, "max_depth": 3, "learning_rate": 0.05}
+    else:
+        model_params = {
+            "hidden_layers": (64, 64),
+            "activation": "relu",
+            "alpha": 1e-4,
+            "lr_init": 1e-3,
+            "max_iter": 200,
+        }
+
+    outdir = Path(args.outdir)
+    outdir.mkdir(parents=True, exist_ok=True)
+
+    summaries = []
+    all_rep_rows = []
+
+    for seed in args.seeds:
+        summary, rep_rows = run_noise_protocol(
+            X,
+            y,
+            task,
+            algo=args.algo,
+            model_params=model_params,
+            preproc_cfg=preproc_cfg,
+            n_replicates=args.n_replicates,
+            noise_std=args.noise_std,
+            seed=seed,
+        )
+        summaries.append(summary)
+        all_rep_rows.extend(rep_rows)
+
+    summary_path = outdir / f"{args.dataset}_{args.algo}_noise_summary.csv"
+    reps_path = outdir / f"{args.dataset}_{args.algo}_noise_replicates.csv"
+    cfg_path = outdir / f"config_{args.dataset}_{args.algo}_noise.json"
+
+    pd.DataFrame(summaries).to_csv(summary_path, index=False)
+    pd.DataFrame(all_rep_rows).to_csv(reps_path, index=False)
+
+    with open(cfg_path, "w") as f:
+        json.dump(
+            {
+                "dataset": args.dataset,
+                "algo": args.algo,
+                "task": task,
+                "protocol": "noise",
+                "protocol_params": {
+                    "n_replicates": args.n_replicates,
+                    "noise_std": args.noise_std,
+                    "seeds": args.seeds,
+                },
+                "model_params": model_params,
+                "preproc_cfg": preproc_cfg,
+            },
+            f,
+            indent=2,
+        )
+
+    print("Saved:")
+    print(summary_path)
+    print(reps_path)
+    print(cfg_path)
+
+
+if __name__ == "__main__":
+    main()
--- a/src/protocols_methodology/nsga_toolbox_protocols.py
+++ b/src/protocols_methodology/nsga_toolbox_protocols.py
@@ -0,0 +1,78 @@
+import mlflow
+from deap import base, creator, tools
+from sklearn.utils import check_random_state
+
+from src.search.nsga_deap import decode
+from src.protocols_methodology.automl_evaluate import evaluate_config_protocol_aware
+
+
+def build_toolbox_protocol_aware(
+    X,
+    y,
+    task,
+    seed,
+    protocol_fn,
+    protocol_params,
+    mlflow_experiment,
+):
+    rng = check_random_state(seed)
+
+    if not hasattr(creator, "FitnessMSEStab"):
+        creator.create("FitnessMSEStab", base.Fitness, weights=(-1.0, 1.0))
+    if not hasattr(creator, "Individual"):
+        creator.create("Individual", list, fitness=creator.FitnessMSEStab)
+
+    toolbox = base.Toolbox()
+    toolbox.register("gene", rng.randint, 0, 1000000)
+    toolbox.register(
+        "individual",
+        tools.initRepeat,
+        creator.Individual,
+        toolbox.gene,
+        n=16,
+    )
+    toolbox.register("population", tools.initRepeat, list, toolbox.individual)
+
+    def eval_ind(individual):
+        algo, model_params, pre_cfg = decode(individual)
+
+        with mlflow.start_run(run_name=f"{algo}", nested=True):
+            for gi, g in enumerate(individual):
+                mlflow.log_param(f"g{gi}", int(g))
+            mlflow.log_param("algo", algo)
+            for k, v in model_params.items():
+                mlflow.log_param(f"m_{k}", v)
+            for k, v in pre_cfg.items():
+                mlflow.log_param(f"p_{k}", v)
+
+            mse_like, stability, meta = evaluate_config_protocol_aware(
+                X=X,
+                y=y,
+                task=task,
+                algo=algo,
+                model_params=model_params,
+                pre_cfg=pre_cfg,
+                protocol_fn=protocol_fn,
+                protocol_params=protocol_params,
+                seed=seed,
+            )
+
+            mlflow.log_metric("mse_like", mse_like)
+            mlflow.log_metric("stability", stability)
+            for mk, mv in meta.items():
+                mlflow.log_metric(mk, mv)
+
+        return mse_like, stability
+
+    toolbox.register("evaluate", eval_ind)
+    toolbox.register("mate", tools.cxTwoPoint)
+    toolbox.register(
+        "mutate",
+        tools.mutUniformInt,
+        low=0,
+        up=1000000,
+        indpb=0.2,
+    )
+    toolbox.register("select", tools.selNSGA2)
+
+    return toolbox
--- a/src/protocols_methodology/protocols.py
+++ b/src/protocols_methodology/protocols.py
@@ -0,0 +1,37 @@
+# src/protocols.py
+
+from typing import Iterable, Tuple, List
+import numpy as np
+import pandas as pd
+from pandas.api.types import is_numeric_dtype
+from sklearn.model_selection import KFold
+from sklearn.utils import resample
+
+def kfold_indices(n: int, k: int, seed: int) -> Iterable[Tuple[np.ndarray, np.ndarray]]:
+    kf = KFold(n_splits=k, shuffle=True, random_state=seed)
+    for tr, te in kf.split(range(n)):
+        yield np.array(tr), np.array(te)
+
+def bootstrap_indices(n: int, B: int, seed: int) -> Iterable[Tuple[np.ndarray, np.ndarray]]:
+    rng = np.random.RandomState(seed)
+    for _ in range(B):
+        train_idx = resample(np.arange(n), replace=True, n_samples=n, random_state=rng)
+        mask = np.ones(n, dtype=bool)
+        mask[train_idx] = False
+        test_idx = np.where(mask)[0]
+        if len(test_idx) == 0:
+            test_idx = rng.choice(n, size=max(1, n // 5), replace=False)
+        yield train_idx, test_idx
+
+def noise_perturbations(X: pd.DataFrame, levels: List[float], seed: int):
+    rng = np.random.RandomState(seed)
+    Xn_list = []
+    # compute std only on numeric columns
+    num_cols = [c for c in X.columns if is_numeric_dtype(X[c])]
+    std = X[num_cols].std().replace(0, 1.0)
+    for sigma in levels:
+        Xn = X.copy()
+        for col in num_cols:
+            Xn[col] = Xn[col] + rng.normal(0, sigma * std.get(col, 1.0), size=len(Xn))
+        Xn_list.append((sigma, Xn))
+    return Xn_list
--- a/src/protocols_methodology/run_nsga_protocols.py
+++ b/src/protocols_methodology/run_nsga_protocols.py
@@ -0,0 +1,204 @@
+import argparse
+import random
+import pickle
+from pathlib import Path
+
+import numpy as np
+import mlflow
+from deap import algorithms
+from deap.tools.emo import sortNondominated
+import pandas as pd
+
+from src.data_openml import load_dataset
+from src.search.nsga_deap import decode
+from src.protocols_methodology.nsga_toolbox_protocols import build_toolbox_protocol_aware
+from src.protocols_methodology.automl_protocol_adapters import (
+    cv_protocol,
+    bootstrap_protocol,
+    noise_protocol,
+)
+
+
+def save_checkpoint(path, gen, pop, seed):
+    state = {
+        "gen": gen,
+        "pop": pop,
+        "py_random_state": random.getstate(),
+        "np_random_state": np.random.get_state(),
+        "seed": seed,
+    }
+    with open(path, "wb") as f:
+        pickle.dump(state, f)
+
+
+def load_checkpoint(path):
+    with open(path, "rb") as f:
+        state = pickle.load(f)
+    random.setstate(state["py_random_state"])
+    np.random.set_state(state["np_random_state"])
+    return state["gen"], state["pop"], state["seed"]
+
+
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument("--dataset", required=True, choices=["adult", "cal_housing"])
+    ap.add_argument("--generations", type=int, default=10)
+    ap.add_argument("--pop-size", type=int, default=24)
+    ap.add_argument("--seed", type=int, default=42)
+    ap.add_argument("--experiment", default="deap_nsga_protocol_study")
+    ap.add_argument("--checkpoint-every", type=int, default=5)
+    ap.add_argument("--shap-pf-eval-rows", type=int, default=512)
+    ap.add_argument("--n-folds", type=int, default=3)
+    ap.add_argument("--n-bootstrap", type=int, default=30)
+    ap.add_argument("--n-noise", type=int, default=30)
+    ap.add_argument("--noise-std", type=float, default=0.01)
+    args = ap.parse_args()
+
+    X, y, task = load_dataset(args.dataset, random_state=args.seed)
+    mlflow.set_experiment(args.experiment)
+
+    protocols = {
+        "cv": (cv_protocol, {"n_folds": args.n_folds}),
+        "bootstrap": (bootstrap_protocol, {"n_bootstrap": args.n_bootstrap}),
+        "noise": (noise_protocol, {"n_replicates": args.n_noise, "noise_std": args.noise_std}),
+    }
+
+    base_outdir = Path("runs") / f"{args.dataset}_protocol_study"
+    base_outdir.mkdir(parents=True, exist_ok=True)
+
+    for pname, (pfn, pparams) in protocols.items():
+        outdir = base_outdir / pname
+        outdir.mkdir(parents=True, exist_ok=True)
+        ckpt_path = outdir / "checkpoint.pkl"
+
+        random.seed(args.seed)
+        np.random.seed(args.seed)
+
+        toolbox = build_toolbox_protocol_aware(
+            X=X,
+            y=y,
+            task=task,
+            seed=args.seed,
+            protocol_fn=pfn,
+            protocol_params=pparams,
+            mlflow_experiment=args.experiment,
+        )
+
+        if ckpt_path.exists():
+            start_gen, pop, loaded_seed = load_checkpoint(ckpt_path)
+            if loaded_seed != args.seed:
+                print(f"Warning: checkpoint seed {loaded_seed} differs from current seed {args.seed}")
+            print(f"[{pname}] Resuming from generation {start_gen}")
+        else:
+            pop = toolbox.population(n=args.pop_size)
+            fits = list(map(toolbox.evaluate, pop))
+            for ind, fit in zip(pop, fits):
+                ind.fitness.values = fit
+            start_gen = 0
+            save_checkpoint(ckpt_path, start_gen, pop, args.seed)
+            print(f"[{pname}] Initial checkpoint saved")
+
+        for gen in range(start_gen, args.generations):
+            offspring = algorithms.varAnd(pop, toolbox, cxpb=0.7, mutpb=0.2)
+            fits = list(map(toolbox.evaluate, offspring))
+            for ind, fit in zip(offspring, fits):
+                ind.fitness.values = fit
+            pop = toolbox.select(pop + offspring, k=args.pop_size)
+            # save PF history for convergence plots
+            pf_gen = sortNondominated(pop, len(pop), first_front_only=True)[0]
+            rows_gen = []
+            for ind in pf_gen:
+                algo, model_params, pre_cfg = decode(ind)
+                rows_gen.append({
+                    "gen": gen + 1,
+                    "algo": algo,
+                    "mse_like": ind.fitness.values[0],
+                    "stability": ind.fitness.values[1],
+                })
+            pd.DataFrame(rows_gen).to_csv(outdir / f"pareto_gen_{gen + 1}.csv", index=False)
+
+            if (gen + 1) % args.checkpoint_every == 0:
+                save_checkpoint(ckpt_path, gen + 1, pop, args.seed)
+                print(f"[{pname}] Checkpoint saved at gen {gen + 1}")
+        # save final full population for dominated region analysis
+        all_rows = []
+        for ind in pop:
+            algo, model_params, pre_cfg = decode(ind)
+            all_rows.append({
+                "algo": algo,
+                "mse_like": ind.fitness.values[0],
+                "stability": ind.fitness.values[1],
+                **{f"m_{k}": v for k, v in model_params.items()},
+                **{f"p_{k}": v for k, v in pre_cfg.items()},
+            })
+        pd.DataFrame(all_rows).to_csv(outdir / "final_population.csv", index=False)
+
+        pf = sortNondominated(pop, len(pop), first_front_only=True)[0]
+        rows = []
+        for ind in pf:
+            algo, model_params, pre_cfg = decode(ind)
+            rows.append(
+                {
+                    "algo": algo,
+                    "mse_like": ind.fitness.values[0],
+                    "stability": ind.fitness.values[1],
+                    **{f"m_{k}": v for k, v in model_params.items()},
+                    **{f"p_{k}": v for k, v in pre_cfg.items()},
+                }
+            )
+
+        pareto_path = outdir / "pareto_front.csv"
+        pd.DataFrame(rows).to_csv(pareto_path, index=False)
+        print(f"[{pname}] Saved Pareto front to {pareto_path}")
+
+        # optional SHAP saving for PF models, same as run_deap
+        shap_dir = outdir / "shap"
+        shap_dir.mkdir(exist_ok=True)
+
+        eval_rows = min(args.shap_pf_eval_rows, len(X))
+        rng = np.random.RandomState(args.seed)
+        eval_idx = rng.choice(len(X), size=eval_rows, replace=False)
+        X_eval_shap = X.iloc[eval_idx]
+
+        from src.preprocessing import build_preprocessor
+        from src.models import make_model
+        from src.stability import compute_shap_matrix
+        from sklearn.pipeline import Pipeline as SkPipeline
+
+        for i, ind in enumerate(pf):
+            algo, model_params, pre_cfg = decode(ind)
+
+            fixed_poly_degree = pre_cfg.get("poly_degree", 1)
+            fixed_k = pre_cfg.get("select_k", None)
+
+            preproc = build_preprocessor(
+                X,
+                task,
+                pre_cfg,
+                fixed_k=fixed_k,
+                fixed_poly_degree=fixed_poly_degree,
+            )
+            model = make_model(task, algo, model_params, random_state=args.seed)
+            pipe = SkPipeline([("pre", preproc), ("model", model)])
+
+            shap_vals, t_fit, t_shap, feat_names = compute_shap_matrix(
+                pipe,
+                X_fit=X,
+                y_fit=y,
+                X_eval=X_eval_shap,
+                task_type=task,
+                bg_size=128,
+                max_eval_rows=eval_rows,
+                rng_seed=args.seed,
+            )
+
+            np.save(shap_dir / f"pf_{i}_shap_vals.npy", shap_vals)
+            np.save(shap_dir / f"pf_{i}_feat_names.npy", np.asarray(feat_names))
+
+        print(f"[{pname}] Saved SHAP arrays for {len(pf)} PF models")
+
+    print(f"Done. All protocol AutoML runs in {base_outdir}")
+
+
+if __name__ == "__main__":
+    main()