e-mission · shankari · Nov 25, 2023 · Aug 11, 2023 · Aug 16, 2023 · Aug 16, 2023
diff --git a/TRB_label_assist/SVM_decision_boundaries.ipynb b/TRB_label_assist/SVM_decision_boundaries.ipynb
@@ -30,6 +30,7 @@
                 "import emission.storage.timeseries.abstract_timeseries as esta\n",
                 "import emission.storage.decorations.trip_queries as esdtq\n",
                 "import emission.core.get_database as edb\n",
+                "import emission.analysis.modelling.trip_model.run_model as eamtr\n",
                 "\n",
                 "import data_wrangling\n",
                 "from clustering import add_loc_clusters"
@@ -60,10 +61,12 @@
                 "uuids = [suburban_uuid, college_campus_uuid]\n",
                 "confirmed_trip_df_map = {}\n",
                 "labeled_trip_df_map = {}\n",
+                "ct_entry={}\n",
                 "expanded_trip_df_map = {}\n",
                 "for u in uuids:\n",
                 "    ts = esta.TimeSeries.get_time_series(u)\n",
-                "    ct_df = ts.get_data_df(\"analysis/confirmed_trip\")\n",
+                "    ct_entry[u]=eamtr._get_training_data(u,None)\n",
+                "    ct_df = ts.to_data_df(\"analysis/confirmed_trip\",ct_entry[u])\n",
                 "    confirmed_trip_df_map[u] = ct_df\n",
                 "    labeled_trip_df_map[u] = esdtq.filter_labeled_trips(ct_df)\n",
                 "    expanded_trip_df_map[u] = esdtq.expand_userinputs(labeled_trip_df_map[u])"
@@ -110,6 +113,8 @@
                 "    df_for_cluster = all_trips_df if cluster_unlabeled else labeled_trips_df\n",
                 "\n",
                 "    df_for_cluster = add_loc_clusters(df_for_cluster,\n",
+                "                                      ct_entry,\n",
+                "                                      clustering_way='destination',\n",
                 "                                      radii=radii,\n",
                 "                                      alg=alg,\n",
                 "                                      loc_type=loc_type,\n",
@@ -264,9 +269,9 @@
     ],
     "metadata": {
         "kernelspec": {
-            "display_name": "Python 3",
+            "display_name": "Python3",
             "language": "python",
-            "name": "python3"
+            "name": "Python3"
         },
         "language_info": {
             "codemirror_mode": {

diff --git a/TRB_label_assist/classification_performance.ipynb b/TRB_label_assist/classification_performance.ipynb
@@ -19,15 +19,14 @@
                 "import pandas as pd\n",
                 "import numpy as np\n",
                 "from uuid import UUID\n",
-                "\n",
                 "import matplotlib.pyplot as plt\n",
                 "\n",
                 "# import logging\n",
                 "# logging.basicConfig(level=logging.DEBUG)\n",
                 "\n",
                 "import emission.storage.timeseries.abstract_timeseries as esta\n",
                 "import emission.storage.decorations.trip_queries as esdtq\n",
-                "\n",
+                "import emission.analysis.modelling.trip_model.run_model as eamtr\n",
                 "from performance_eval import get_clf_metrics, cv_for_all_algs, PREDICTORS"
             ]
         },
@@ -49,10 +48,11 @@
                 "labeled_trip_df_map = {}\n",
                 "expanded_labeled_trip_df_map = {}\n",
                 "expanded_all_trip_df_map = {}\n",
+                "ct_entry={}\n",
                 "for u in all_users:\n",
                 "    ts = esta.TimeSeries.get_time_series(u)\n",
-                "    ct_df = ts.get_data_df(\"analysis/confirmed_trip\")\n",
-                "\n",
+                "    ct_entry[u]=eamtr._get_training_data(u,None)\n",
+                "    ct_df = ts.to_data_df(\"analysis/confirmed_trip\",ct_entry[u])\n",
                 "    confirmed_trip_df_map[u] = ct_df\n",
                 "    labeled_trip_df_map[u] = esdtq.filter_labeled_trips(ct_df)\n",
                 "    expanded_labeled_trip_df_map[u] = esdtq.expand_userinputs(\n",
@@ -132,6 +132,7 @@
                 "# load in all runs\n",
                 "model_names = list(PREDICTORS.keys())\n",
                 "cv_results = cv_for_all_algs(\n",
+                "    ct_entry,\n",
                 "    uuid_list=all_users,\n",
                 "    expanded_trip_df_map=expanded_labeled_trip_df_map,\n",
                 "    model_names=model_names,\n",

diff --git a/TRB_label_assist/cluster_performance.ipynb b/TRB_label_assist/cluster_performance.ipynb
@@ -15,11 +15,10 @@
             "source": [
                 "%load_ext autoreload\n",
                 "%autoreload 2\n",
-                "\n",
                 "import pandas as pd\n",
                 "import matplotlib.pyplot as plt\n",
                 "from matplotlib.gridspec import GridSpec\n",
-                "\n",
+                "import emission.analysis.modelling.trip_model.run_model as eamtr\n",
                 "import emission.storage.timeseries.abstract_timeseries as esta\n",
                 "import emission.storage.decorations.trip_queries as esdtq\n",
                 "import performance_eval\n",
@@ -45,10 +44,11 @@
                 "labeled_trip_df_map = {}\n",
                 "expanded_labeled_trip_df_map = {}\n",
                 "expanded_all_trip_df_map = {}\n",
+                "ct_entry={}\n",
                 "for u in all_users:\n",
                 "    ts = esta.TimeSeries.get_time_series(u)\n",
-                "    ct_df = ts.get_data_df(\"analysis/confirmed_trip\")\n",
-                "\n",
+                "    ct_entry[u]=eamtr._get_training_data(u,None)    \n",
+                "    ct_df = ts.to_data_df(\"analysis/confirmed_trip\",ct_entry[u])    \n",
                 "    confirmed_trip_df_map[u] = ct_df\n",
                 "    labeled_trip_df_map[u] = esdtq.filter_labeled_trips(ct_df)\n",
                 "    expanded_labeled_trip_df_map[u] = esdtq.expand_userinputs(\n",
@@ -87,6 +87,8 @@
                 "\n",
                 "    all_results_df = performance_eval.run_eval_cluster_metrics(\n",
                 "        expanded_labeled_trip_df_map,\n",
+                "        ct_entry,\n",
+                "        clustering_way='destination',\n",
                 "        user_list=all_users,\n",
                 "        radii=radii,\n",
                 "        loc_type='end',\n",
@@ -265,6 +267,8 @@
                 "\n",
                 "SVM_results_df = performance_eval.run_eval_cluster_metrics(\n",
                 "    expanded_labeled_trip_df_map,\n",
+                "    ct_entry,\n",
+                "    clustering_way=\"destination\",\n",
                 "    user_list=all_users,\n",
                 "    radii=radii,\n",
                 "    loc_type='end',\n",

diff --git a/TRB_label_assist/clustering.py b/TRB_label_assist/clustering.py
@@ -16,8 +16,8 @@
 # our imports
 # NOTE: this requires changing the branch of e-mission-server to
 # eval-private-data-compatibility
-import emission.analysis.modelling.tour_model_extended.similarity as eamts
 import emission.storage.decorations.trip_queries as esdtq
+import emission.analysis.modelling.trip_model.greedy_similarity_binning as eamtg
 
 EARTH_RADIUS = 6371000
 ALG_OPTIONS = [
@@ -28,9 +28,27 @@
     'mean_shift'
 ]
 
+def cleanEntryTypeData(loc_df,trip_entry):
+
+    """
+    Helps weed out entries from the list of entries which were removed from the df using
+    esdtq.filter_labeled_trips() and esdtq.expand_userinputs()
+
+    loc_df : dataframe amde from entry type data
+    trip_entry : the entry type equivalent of loc_df ,
+                which was passed alongside the dataframe while loading the data
+
+    """
+
+    ids_in_df=loc_df['_id']
+    filtered_trip_entry = list(filter(lambda entry: entry['_id'] in ids_in_df.values, trip_entry))
+    return filtered_trip_entry
+
 
 def add_loc_clusters(
         loc_df,
+        trip_entry,
+        clustering_way,
         radii,
         loc_type,
         alg,
@@ -53,6 +71,9 @@ def add_loc_clusters(
         Args:
             loc_df (dataframe): must have columns 'start_lat' and 'start_lon' 
                 or 'end_lat' and 'end_lon'
+            trip_entry ( list of Entry/confirmedTrip): list consisting all entries from the
+                time data was loaded. loc_df was obtained from this by converting to df and 
+                then filtering out labeled trips and expanding user_inputs   
             radii (int list): list of radii to run the clustering algs with
             loc_type (str): 'start' or 'end'
             alg (str): 'DBSCAN', 'naive', 'OPTICS', 'SVM', 'fuzzy', or
@@ -98,19 +119,25 @@ def add_loc_clusters(
             loc_df.loc[:, f"{loc_type}_DBSCAN_clusters_{r}_m"] = labels
 
     elif alg == 'naive':
+
+        cleaned_trip_entry= cleanEntryTypeData(loc_df,trip_entry)
+
         for r in radii:
             # this is using a modified Similarity class that bins start/end
             # points separately before creating trip-level bins
-            sim_model = eamts.Similarity(loc_df,
-                                         radius_start=r,
-                                         radius_end=r,
-                                         shouldFilter=False,
-                                         cutoff=False)
-            # we only bin the loc_type points to speed up the alg. avoid
-            # unnecessary binning since this is really slow
-            sim_model.bin_helper(loc_type=loc_type)
-            labels = sim_model.data_df[loc_type + '_bin'].to_list()
 
+            model_config = {
+                "metric": "od_similarity",
+                "similarity_threshold_meters": r,  # meters,
+                "apply_cutoff": False,
+                "clustering_way": clustering_way,
+                "shouldFilter":False,
+                "incremental_evaluation": False
+            }    
+
+            sim_model = eamtg.GreedySimilarityBinning(model_config)       
+            sim_model.fit(cleaned_trip_entry)
+            labels = [int(l) for l in sim_model.tripLabels]
             # # pd.Categorical converts the type from int to category (so
             # # numerical operations aren't possible)
             # loc_df.loc[:, f"{loc_type}_{alg}_clusters_{r}_m"] = pd.Categorical(

diff --git a/TRB_label_assist/clustering_examples.ipynb b/TRB_label_assist/clustering_examples.ipynb
@@ -26,12 +26,13 @@
                 "%autoreload 2\n",
                 "\n",
                 "from uuid import UUID\n",
-                "\n",
+                "import itertools\n",
                 "import emission.storage.timeseries.abstract_timeseries as esta\n",
                 "import emission.storage.decorations.trip_queries as esdtq\n",
                 "import emission.core.get_database as edb\n",
-                "\n",
-                "import mapping"
+                "import emission.analysis.modelling.trip_model.run_model as eamtr\n",
+                "import mapping\n",
+                "import emission.analysis.modelling as eam"
             ]
         },
         {
@@ -60,9 +61,11 @@
                 "confirmed_trip_df_map = {}\n",
                 "labeled_trip_df_map = {}\n",
                 "expanded_trip_df_map = {}\n",
+                "ct_entry={}\n",
                 "for u in uuids:\n",
                 "    ts = esta.TimeSeries.get_time_series(u)\n",
-                "    ct_df = ts.get_data_df(\"analysis/confirmed_trip\")\n",
+                "    ct_entry[u]=eamtr._get_training_data(u,None)    \n",
+                "    ct_df = ts.to_data_df(\"analysis/confirmed_trip\",itertools.chain(ct_entry[u]))    \n",
                 "    confirmed_trip_df_map[u] = ct_df\n",
                 "    labeled_trip_df_map[u] = esdtq.filter_labeled_trips(ct_df)\n",
                 "    expanded_trip_df_map[u] = esdtq.expand_userinputs(labeled_trip_df_map[u])"
@@ -83,8 +86,10 @@
             "outputs": [],
             "source": [
                 "fig = mapping.find_plot_clusters(expanded_trip_df_map[suburban_uuid],\n",
+                "                                 ct_entry[suburban_uuid],\n",
                 "                                 alg='naive',\n",
                 "                                 loc_type='end',\n",
+                "                                 clustering_way=\"destination\",\n",
                 "                                 plot_unlabeled=False,\n",
                 "                                 cluster_unlabeled=False,\n",
                 "                                 radii=[50, 100, 150])\n",
@@ -98,8 +103,10 @@
             "outputs": [],
             "source": [
                 "fig = mapping.find_plot_clusters(expanded_trip_df_map[college_campus_uuid],\n",
+                "                                 ct_entry[college_campus_uuid],\n",
                 "                                 alg='naive',\n",
                 "                                 loc_type='end',\n",
+                "                                 clustering_way=\"destination\",\n",
                 "                                 plot_unlabeled=False,\n",
                 "                                 cluster_unlabeled=False,\n",
                 "                                 radii=[50, 100, 150])\n",
@@ -121,9 +128,11 @@
             "outputs": [],
             "source": [
                 "fig = mapping.find_plot_clusters(expanded_trip_df_map[suburban_uuid],\n",
+                "                                 ct_entry[suburban_uuid],\n",
                 "                                 alg='DBSCAN',\n",
                 "                                 SVM=False,\n",
                 "                                 loc_type='end',\n",
+                "                                 clustering_way=\"destination\",\n",
                 "                                 plot_unlabeled=False,\n",
                 "                                 cluster_unlabeled=False,\n",
                 "                                 radii=[50, 100, 150, 200])\n",
@@ -137,9 +146,11 @@
             "outputs": [],
             "source": [
                 "fig = mapping.find_plot_clusters(expanded_trip_df_map[college_campus_uuid],\n",
+                "                                 ct_entry[college_campus_uuid],\n",
                 "                                 alg='DBSCAN',\n",
                 "                                 SVM=False,\n",
                 "                                 loc_type='end',\n",
+                "                                 clustering_way=\"destination\",\n",
                 "                                 plot_unlabeled=False,\n",
                 "                                 cluster_unlabeled=False,\n",
                 "                                 radii=[50, 100, 150, 200])\n",
@@ -161,9 +172,11 @@
             "outputs": [],
             "source": [
                 "fig = mapping.find_plot_clusters(expanded_trip_df_map[suburban_uuid],\n",
+                "                                 ct_entry[suburban_uuid],\n",
                 "                                 alg='DBSCAN',\n",
                 "                                 SVM=True,\n",
                 "                                 loc_type='end',\n",
+                "                                 clustering_way=\"destination\",\n",
                 "                                 plot_unlabeled=False,\n",
                 "                                 cluster_unlabeled=False,\n",
                 "                                 radii=[50, 100, 150, 200])\n",
@@ -177,9 +190,11 @@
             "outputs": [],
             "source": [
                 "fig = mapping.find_plot_clusters(expanded_trip_df_map[college_campus_uuid],\n",
+                "                                 ct_entry[college_campus_uuid],\n",
                 "                                 alg='DBSCAN',\n",
                 "                                 SVM=True,\n",
                 "                                 loc_type='end',\n",
+                "                                 clustering_way=\"destination\",\n",
                 "                                 plot_unlabeled=False,\n",
                 "                                 cluster_unlabeled=False,\n",
                 "                                 radii=[50, 100, 150, 200])\n",