diff --git a/.RData b/.RData new file mode 100644 index 00000000..abd32871 Binary files /dev/null and b/.RData differ diff --git a/CourseSessions/ClassificationProcessCreditCardDefault.Rmd b/CourseSessions/ClassificationProcessCreditCardDefault.Rmd index bdfc3f70..cefce75b 100644 --- a/CourseSessions/ClassificationProcessCreditCardDefault.Rmd +++ b/CourseSessions/ClassificationProcessCreditCardDefault.Rmd @@ -563,7 +563,7 @@ df.all <- do.call(rbind, lapply(list(df1, df2, df3), function(df) { colnames(df)[1] <- "False Positive rate" df })) -ggplot(df.all, aes(x=`False Positive rate`, y=value, colour=variable)) + geom_line() + ylab("True Positive rate") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") +ggplot(df.all, aes(x=`False Positive rate`, y=value, colour="red")) + geom_line() + ylab("True Positive rate") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") ``` How should a good ROC curve look like? A rule of thumb in assessing ROC curves is that the "higher" the curve (i.e., the closer it gets to the point with coordinates (0,1)), hence the larger the area under the curve, the better. You may also select one point on the ROC curve (the "best one" for our purpose) and use that false positive/false negative performances (and corresponding threshold for P(1)) to assess your model. @@ -640,7 +640,7 @@ df.all <- do.call(rbind, lapply(list(frame1, frame2, frame3), function(df) { colnames(df)[1] <- "% of validation data selected" df })) -ggplot(df.all, aes(x=`% of validation data selected`, y=value, colour=variable)) + geom_line() + ylab("% of class 1 captured") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") +ggplot(df.all, aes(x=`% of validation data selected`, y=value, colour="red")) + geom_line() + ylab("% of class 1 captured") + geom_abline(intercept = 0, slope = 1,linetype="dotted", colour="green") ``` Notice that if we were to examine cases selecting them at random, instead of selecting the "best" ones using an informed classifier, the "random prediction" gains chart would be a straight 45-degree line. @@ -749,7 +749,7 @@ df.all <- do.call(rbind, lapply(list(frame1, frame2, frame3), function(df) { colnames(df)[1] <- "% of validation data selected" df })) -ggplot(df.all, aes(x=`% of validation data selected`, y=value, colour=variable)) + geom_line() + ylab("Estimated profit") +ggplot(df.all, aes(x=`% of validation data selected`, y=value, colour="red")) + geom_line() + ylab("Estimated profit") ``` We can then select the percentage of selected cases that corresponds to the maximum estimated profit (or minimum loss, if necessary). @@ -830,7 +830,7 @@ df.all <- do.call(rbind, lapply(list(df1, df2, df3), function(df) { colnames(df)[1] <- "False Positive rate" df })) -ggplot(df.all, aes(x=`False Positive rate`, y=value, colour=variable)) + geom_line() + ylab("True Positive rate") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") +ggplot(df.all, aes(x=`False Positive rate`, y=value, colour="red")) + geom_line() + ylab("True Positive rate") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") ``` Gains chart for the test data: @@ -881,7 +881,7 @@ df.all <- do.call(rbind, lapply(list(frame1, frame2, frame3), function(df) { colnames(df)[1] <- "% of test data selected" df })) -ggplot(df.all, aes(x=`% of test data selected`, y=value, colour=variable)) + geom_line() + ylab("% of class 1 captured") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") +ggplot(df.all, aes(x=`% of test data selected`, y=value, colour="red")) + geom_line() + ylab("% of class 1 captured") + geom_abline(intercept = 0, slope = 1,linetype="dotted",colour="green") ``` Finally the profit curves for the test data, using the same profit/cost estimates as above: @@ -946,7 +946,7 @@ df.all <- do.call(rbind, lapply(list(frame1, frame2, frame3), function(df) { colnames(df)[1] <- "% of test data selected" df })) -ggplot(df.all, aes(x=`% of test data selected`, y=value, colour=variable)) + geom_line() + ylab("Estimated profit") +ggplot(df.all, aes(x=`% of test data selected`, y=value, colour="red")) + geom_line() + ylab("Estimated profit") ``` **Questions:** diff --git a/CourseSessions/ClassificationProcessCreditCardDefault.html b/CourseSessions/ClassificationProcessCreditCardDefault.html index d16b7736..8c39b5c4 100644 --- a/CourseSessions/ClassificationProcessCreditCardDefault.html +++ b/CourseSessions/ClassificationProcessCreditCardDefault.html @@ -1,12 +1,12 @@ - +
- + @@ -14,18 +14,1307 @@A Taiwan-based credit card issuer wants to better predict the likelihood of default for its customers, as well as identify the key drivers that determine this likelihood. This would inform the issuer’s decisions on who to give a credit card to and what credit limit to provide. It would also help the issuer have a better understanding of their current and potential customers, which would inform their future strategy, including their planning of offering targeted credit products to their customers.
+ | 01 | 02 | 03 | @@ -373,7 +1700,7 @@||
---|---|---|---|---|---|
ID | +ID | 1 | 2 | 3 | @@ -386,7 +1713,7 @@10 |
LIMIT_BAL | +LIMIT_BAL | 20000 | 120000 | 90000 | @@ -399,7 +1726,7 @@20000 |
SEX | +SEX | 2 | 2 | 2 | @@ -412,7 +1739,7 @@1 |
EDUCATION | +EDUCATION | 2 | 2 | 2 | @@ -425,7 +1752,7 @@3 |
MARRIAGE | +MARRIAGE | 1 | 2 | 2 | @@ -438,7 +1765,7 @@2 |
AGE | +AGE | 24 | 26 | 34 | @@ -451,7 +1778,7 @@35 |
PAY_0 | +PAY_0 | 2 | -1 | 0 | @@ -464,7 +1791,7 @@-2 |
PAY_2 | +PAY_2 | 2 | 2 | 0 | @@ -477,7 +1804,7 @@-2 |
PAY_3 | +PAY_3 | -1 | 0 | 0 | @@ -490,7 +1817,7 @@-2 |
PAY_4 | +PAY_4 | -1 | 0 | 0 | @@ -503,7 +1830,7 @@-2 |
PAY_5 | +PAY_5 | -2 | 0 | 0 | @@ -516,7 +1843,7 @@-1 |
PAY_6 | +PAY_6 | -2 | 2 | 0 | @@ -529,7 +1856,7 @@-1 |
BILL_AMT1 | +BILL_AMT1 | 3913 | 2682 | 29239 | @@ -542,7 +1869,7 @@0 |
BILL_AMT2 | +BILL_AMT2 | 3102 | 1725 | 14027 | @@ -555,7 +1882,7 @@0 |
BILL_AMT3 | +BILL_AMT3 | 689 | 2682 | 13559 | @@ -568,7 +1895,7 @@0 |
BILL_AMT4 | +BILL_AMT4 | 0 | 3272 | 14331 | @@ -581,7 +1908,7 @@0 |
BILL_AMT5 | +BILL_AMT5 | 0 | 3455 | 14948 | @@ -594,7 +1921,7 @@13007 |
BILL_AMT6 | +BILL_AMT6 | 0 | 3261 | 15549 | @@ -607,7 +1934,7 @@13912 |
PAY_AMT1 | +PAY_AMT1 | 0 | 0 | 1518 | @@ -620,7 +1947,7 @@0 |
PAY_AMT2 | +PAY_AMT2 | 689 | 1000 | 1500 | @@ -633,7 +1960,7 @@0 |
PAY_AMT3 | +PAY_AMT3 | 0 | 1000 | 1000 | @@ -646,7 +1973,7 @@0 |
PAY_AMT4 | +PAY_AMT4 | 0 | 1000 | 1000 | @@ -659,7 +1986,7 @@13007 |
PAY_AMT5 | +PAY_AMT5 | 0 | 0 | 1000 | @@ -672,7 +1999,7 @@1122 |
PAY_AMT6 | +PAY_AMT6 | 0 | 2000 | 5000 | @@ -687,7 +2014,7 @@
+ | Class 1 | Class 0 | |||
---|---|---|---|---|---|
# of Observations | -5337 | -18663 | +# of Observations | +5370 | +18630 |
+ | Class 1 | Class 0 | |||
---|---|---|---|---|---|
# of Observations | -646 | -2354 | +# of Observations | +603 | +2397 |
+ | min | 25 percent | median | @@ -773,244 +2100,244 @@||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID | +ID | 1 | -7475 | -14792 | -14791.33 | -21889 | -30000 | -8557.81 | +6097.25 | +11970.0 | +11874.38 | +17512.50 | +24000 | +6782.73 | |
LIMIT_BAL | +LIMIT_BAL | 10000 | -50000 | -90000 | -129233.22 | -200000 | +50000.00 | +90000.0 | +129725.82 | +200000.00 | 740000 | -113805.35 | +115263.81 | ||
SEX | -1 | +SEX | 1 | +1.00 | +2.0 | +1.59 | +2.00 | 2 | -1.57 | -2 | -2 | -0.50 | +0.49 | ||
EDUCATION | -1 | +EDUCATION | 1 | -2 | -1.90 | -2 | +1.00 | +2.0 | +1.89 | +2.00 | 6 | -0.73 | +0.72 | ||
MARRIAGE | +MARRIAGE | 0 | -1 | -2 | -1.52 | -2 | +1.00 | +2.0 | +1.53 | +2.00 | 3 | 0.53 | |||
AGE | +AGE | 21 | -28 | -34 | -35.79 | -42 | -75 | -9.65 | +27.00 | +34.0 | +35.52 | +42.00 | +73 | +9.69 | |
PAY_0 | +PAY_0 | -2 | -0 | -1 | -0.68 | -2 | +0.00 | +1.0 | +0.67 | +2.00 | 8 | -1.39 | +1.38 | ||
PAY_2 | +PAY_2 | -2 | -0 | -0 | +-1.00 | +0.0 | 0.46 | -2 | +2.00 | 7 | -1.50 | +1.51 | |||
PAY_3 | +PAY_3 | -2 | --1 | -0 | -0.36 | -2 | -7 | -1.49 | +-1.00 | +0.0 | +0.37 | +2.00 | +8 | +1.51 | |
PAY_4 | +PAY_4 | -2 | --1 | -0 | -0.26 | -2 | -7 | +-1.00 | +0.0 | +0.25 | +2.00 | +8 | 1.50 | ||
PAY_5 | +PAY_5 | -2 | --1 | -0 | -0.16 | -0 | -7 | -1.47 | +-1.00 | +0.0 | +0.18 | +2.00 | +8 | +1.48 | |
PAY_6 | +PAY_6 | -2 | --1 | -0 | -0.10 | -0 | +-1.00 | +0.0 | +0.12 | +0.00 | 8 | -1.48 | +1.49 | ||
BILL_AMT1 | +BILL_AMT1 | -6676 | -3196 | -20547 | -48574.01 | -59010 | -613860 | -73926.80 | +3204.50 | +19913.0 | +47553.25 | +57769.75 | +610723 | +71718.95 | |
BILL_AMT2 | --9119 | -2826 | -20568 | -47477.03 | -57550 | -581775 | -71997.92 | +BILL_AMT2 | +-7334 | +2823.75 | +20250.0 | +46522.80 | +56489.00 | +572834 | +69956.13 |
BILL_AMT3 | +BILL_AMT3 | -61506 | -2552 | -20089 | -45451.40 | -54848 | +2500.00 | +19818.5 | +44452.92 | +52134.00 | 578971 | -68948.48 | +67027.84 | ||
BILL_AMT4 | --65167 | -2300 | -19208 | -42198.39 | -50307 | +BILL_AMT4 | +-46627 | +2305.25 | +19068.5 | +41230.76 | +49233.00 | 548020 | -64835.05 | +62688.03 | |
BILL_AMT5 | --53007 | -1542 | -18682 | -39640.68 | -47624 | +BILL_AMT5 | +-46627 | +1566.50 | +18596.0 | +39270.66 | +47449.00 | 547880 | -61952.66 | +60441.45 | |
BILL_AMT6 | --94625 | -1133 | -18186 | -38618.44 | -47537 | -514975 | -60170.86 | +BILL_AMT6 | +-339603 | +1150.00 | +18089.5 | +37945.72 | +46981.50 | +472480 | +58573.78 |
PAY_AMT1 | -0 | +PAY_AMT1 | 0 | -1639 | -3349.46 | -3430 | -244500 | -9246.74 | +0.00 | +1657.0 | +3357.71 | +3406.00 | +300000 | +9340.34 | |
PAY_AMT2 | -0 | +PAY_AMT2 | 0 | -1580 | -3423.58 | -3303 | +0.00 | +1500.0 | +3428.81 | +3250.00 | 358689 | -12222.64 | +12013.68 | ||
PAY_AMT3 | -0 | +PAY_AMT3 | 0 | -1244 | -3295.23 | -3000 | -508229 | -12508.08 | +0.00 | +1191.0 | +3202.44 | +3000.00 | +234456 | +10576.47 | |
PAY_AMT4 | -0 | +PAY_AMT4 | 0 | -1000 | -3108.84 | -2976 | +0.00 | +1000.0 | +3134.02 | +2845.00 | 432130 | -10815.33 | +11621.30 | ||
PAY_AMT5 | -0 | +PAY_AMT5 | 0 | -1000 | -3155.63 | -3000 | -330982 | -11431.09 | +0.00 | +1000.0 | +3279.78 | +3000.00 | +332000 | +12654.68 | |
PAY_AMT6 | -0 | +PAY_AMT6 | 0 | -1000 | -3277.53 | -2935 | -287982 | -12166.73 | +0.00 | +1000.0 | +3325.66 | +2867.50 | +345293 | +13062.02 |
+ | min | 25 percent | median | @@ -1030,244 +2357,244 @@|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ID | +ID | 3 | -7547.5 | -15130 | -15090.57 | -22668.5 | -29997 | -8690.07 | +5964.25 | +12012.5 | +12036.85 | +18167.75 | +23999 | +6969.51 |
LIMIT_BAL | +LIMIT_BAL | 10000 | -70000.0 | -150000 | -177890.59 | -250000.0 | -800000 | -131040.81 | +60000.00 | +150000.0 | +175806.55 | +250000.00 | +1000000 | +131059.41 |
SEX | +SEX | 1 | -1.0 | -2 | -1.62 | +1.00 | 2.0 | +1.64 | +2.00 | 2 | -0.49 | +0.48 | ||
EDUCATION | +EDUCATION | 0 | -1.0 | -2 | -1.84 | +1.00 | 2.0 | +1.84 | +2.00 | 6 | -0.81 | +0.80 | ||
MARRIAGE | +MARRIAGE | 0 | -1.0 | -2 | -1.56 | +1.00 | 2.0 | +1.56 | +2.00 | 3 | 0.52 | |||
AGE | +AGE | 21 | -28.0 | -34 | -35.44 | -41.0 | +28.00 | +34.0 | +35.34 | +41.00 | 79 | -9.09 | +9.15 | |
PAY_0 | +PAY_0 | -2 | --1.0 | -0 | --0.21 | +-1.00 | 0.0 | +-0.20 | +0.00 | 8 | -0.96 | +0.95 | ||
PAY_2 | +PAY_2 | -2 | --1.0 | -0 | --0.30 | +-1.00 | 0.0 | +-0.29 | +0.00 | 8 | 1.04 | |||
PAY_3 | +PAY_3 | -2 | --1.0 | -0 | --0.32 | +-1.00 | 0.0 | +-0.30 | +0.00 | 8 | 1.05 | |||
PAY_4 | +PAY_4 | -2 | --1.0 | -0 | --0.36 | +-1.00 | 0.0 | +-0.34 | +0.00 | 8 | -1.02 | +1.01 | ||
PAY_5 | +PAY_5 | -2 | --1.0 | -0 | --0.39 | +-1.00 | 0.0 | +-0.38 | +0.00 | 7 | 0.98 | |||
PAY_6 | +PAY_6 | -2 | --1.0 | -0 | --0.41 | +-1.00 | 0.0 | +-0.39 | +0.00 | 7 | -1.01 | +1.02 | ||
BILL_AMT1 | +BILL_AMT1 | -165580 | -3703.0 | -23242 | -51740.70 | -69301.0 | -746814 | -72519.96 | +3731.50 | +23119.5 | +51474.20 | +68187.50 | +964511 | +72893.67 |
BILL_AMT2 | +BILL_AMT2 | -69777 | -3009.5 | -21507 | -49361.96 | -65911.0 | -743970 | -69874.35 | +3147.75 | +21842.0 | +49258.08 | +64624.75 | +983931 | +70471.89 |
BILL_AMT3 | +BILL_AMT3 | -157264 | -2784.0 | -20192 | -47129.19 | -61885.5 | -855086 | -67626.40 | +2861.50 | +20145.0 | +46918.80 | +60646.50 | +1664089 | +68518.18 |
BILL_AMT4 | +BILL_AMT4 | -170000 | -2339.5 | -18956 | -43285.52 | -55944.5 | -628699 | -63341.32 | +2350.25 | +18889.5 | +42696.05 | +54019.75 | +891586 | +63178.42 |
BILL_AMT5 | +BILL_AMT5 | -81334 | -1759.5 | -17778 | -40289.35 | -51114.5 | -823540 | -59920.99 | -||||||
BILL_AMT6 | --209051 | -1246.0 | -16378 | -38737.75 | -49699.0 | -699944 | -58723.63 | -|||||||
PAY_AMT1 | -0 | -1171.5 | -2453 | -6198.06 | -5614.0 | +1777.00 | +17955.5 | +40211.11 | +50705.00 | +927171 | +60317.17 | +|||
BILL_AMT6 | +-150953 | +1244.25 | +16609.0 | +38741.84 | +49493.75 | +961664 | +59322.82 | +|||||||
PAY_AMT1 | +0 | +1158.00 | +2423.0 | +6172.79 | +5556.00 | 505000 | -16898.19 | +16297.18 | ||||||
PAY_AMT2 | +PAY_AMT2 | 0 | -1003.5 | -2251 | -6487.22 | -5310.5 | -1024516 | -20457.55 | +1000.00 | +2200.0 | +6503.24 | +5200.00 | +1684259 | +22660.15 |
PAY_AMT3 | +PAY_AMT3 | 0 | -600.0 | -2000 | -5680.19 | -5000.0 | -417588 | -16879.70 | +500.00 | +2000.0 | +5478.54 | +5000.00 | +896040 | +17330.59 |
PAY_AMT4 | +PAY_AMT4 | 0 | -390.0 | -1712 | -5282.70 | -4539.0 | -528897 | -16476.72 | +390.00 | +1700.0 | +5207.40 | +4566.00 | +497000 | +15667.78 |
PAY_AMT5 | +PAY_AMT5 | 0 | -364.0 | -1737 | -5227.52 | -4555.5 | -426529 | -16154.69 | +371.00 | +1734.5 | +5216.92 | +4581.25 | +417990 | +15918.86 |
PAY_AMT6 | +PAY_AMT6 | 0 | -300.0 | -1707 | -5771.20 | -4600.0 | -527143 | -18790.97 | +268.50 | +1663.5 | +5726.61 | +4500.00 | +528666 | +18707.41 |
Even though each independent variable may not differ across classes, classification may still be feasible: a (linear or nonlinear) combination of independent variables may still be discriminatory.
A simple visualization tool to assess the discriminatory power of the independent variables are the box plots. A box plot visually indicates simple summary statistics of an independent variable (e.g. mean, median, top and bottom quantiles, min, max, etc.). For example consider the box plots for our estimation data for the repayment status variables, for class 1
- +and class 0:
- +Questions:
+ | Estimate | Std. Error | z value | @@ -1311,175 +2638,175 @@||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
(Intercept) | +(Intercept) | -0.6 | 0.1 | --4.7 | +-4.4 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ID | +ID | 0.0 | 0.0 | --0.5 | -0.6 | +-0.3 | +0.7 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
LIMIT_BAL | +LIMIT_BAL | 0.0 | 0.0 | --5.2 | +-3.6 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SEX | +SEX | -0.1 | 0.0 | --3.1 | +-2.9 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
EDUCATION | +EDUCATION | -0.1 | 0.0 | -4.2 | 0.0 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MARRIAGE | +MARRIAGE | -0.2 | 0.0 | --4.9 | +-4.8 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AGE | +AGE | 0.0 | 0.0 | -3.9 | +2.8 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_0 | +PAY_0 | 0.6 | 0.0 | -29.6 | +29.1 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_2 | +PAY_2 | 0.1 | 0.0 | -3.4 | +3.6 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_3 | +PAY_3 | 0.1 | 0.0 | -2.8 | +3.0 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_4 | +PAY_4 | 0.0 | 0.0 | -1.3 | -0.2 | +-0.4 | +0.7 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_5 | +PAY_5 | +0.1 | 0.0 | +2.4 | 0.0 | -1.0 | -0.3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_6 | +PAY_6 | 0.0 | 0.0 | --0.3 | -0.8 | +0.2 | +0.9 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BILL_AMT1 | +BILL_AMT1 | 0.0 | 0.0 | --5.1 | +-5.2 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BILL_AMT2 | +BILL_AMT2 | 0.0 | 0.0 | -1.9 | -0.1 | +2.0 | +0.0 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BILL_AMT3 | +BILL_AMT3 | 0.0 | 0.0 | -1.4 | -0.2 | +0.6 | +0.5 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BILL_AMT4 | -0.0 | +BILL_AMT4 | 0.0 | 0.0 | -1.0 | +0.5 | +0.6 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BILL_AMT5 | +BILL_AMT5 | 0.0 | 0.0 | --1.2 | -0.2 | +0.7 | +0.5 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BILL_AMT6 | -0.0 | +BILL_AMT6 | 0.0 | -2.1 | 0.0 | +-0.3 | +0.8 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_AMT1 | +PAY_AMT1 | 0.0 | 0.0 | --5.6 | +-5.8 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_AMT2 | +PAY_AMT2 | 0.0 | 0.0 | --3.8 | +-3.6 | 0.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_AMT3 | +PAY_AMT3 | 0.0 | 0.0 | --1.6 | -0.1 | +-2.3 | +0.0 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_AMT4 | +PAY_AMT4 | 0.0 | 0.0 | --1.7 | +-1.6 | 0.1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_AMT5 | -0.0 | +PAY_AMT5 | 0.0 | --2.6 | 0.0 | +-0.9 | +0.4 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PAY_AMT6 | +PAY_AMT6 | 0.0 | 0.0 | -2.2 | @@ -1491,7 +2818,7 @@
+ | Actual Class | Predicted Class | Probability of Class 1 | @@ -1499,61 +2826,61 @@||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Obs 1 | +Obs 1 | 0 | -0 | -0.07 | +1 | +0.50 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 2 | -0 | +Obs 2 | +1 | 0 | -0.45 | +0.21 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 3 | +Obs 3 | 0 | 0 | -0.25 | +0.18 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 4 | -1 | +Obs 4 | +0 | 1 | -0.56 | +0.89 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 5 | -1 | +Obs 5 | 0 | -0.40 | +0 | +0.16 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 6 | +Obs 6 | 0 | 0 | -0.36 | +0.19 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 7 | +Obs 7 | 0 | 0 | -0.15 | +0.18 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 8 | -1 | -1 | -0.52 | +Obs 8 | +0 | +0 | +0.19 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 9 | +Obs 9 | 0 | 0 | -0.12 | +0.16 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Obs 10 | +Obs 10 | 0 | 0 | 0.24 | @@ -1567,15 +2894,16 @@
+ | Actual Class | Predicted Class | Probability of Class 1 | @@ -1583,64 +2911,64 @@||||
---|---|---|---|---|---|---|---|
Obs 1 | -0 | +Obs 1 | 0 | -0.17 | +1 | +0.71 | |
Obs 2 | -0 | +Obs 2 | +1 | 0 | -0.17 | +0.14 | |
Obs 3 | +Obs 3 | 0 | 0 | -0.17 | +0.14 | ||
Obs 4 | -1 | +Obs 4 | +0 | 1 | 0.71 | ||
Obs 5 | -1 | +Obs 5 | +0 | 0 | -0.45 | +0.14 | |
Obs 6 | +Obs 6 | 0 | -1 | -0.71 | +0 | +0.14 | |
Obs 7 | +Obs 7 | 0 | 0 | -0.17 | +0.14 | ||
Obs 8 | -1 | -1 | -0.71 | +Obs 8 | +0 | +0 | +0.14 |
Obs 9 | +Obs 9 | 0 | 0 | -0.17 | +0.14 | ||
Obs 10 | +Obs 10 | 0 | 0 | -0.17 | +0.14 |
+ | Logistic Regression | CART 1 | CART 2 | @@ -1663,148 +2991,148 @@||||
---|---|---|---|---|---|---|---|
ID | --0.02 | +ID | +-0.01 | 0.00 | -0.02 | ||
LIMIT_BAL | --0.18 | +LIMIT_BAL | +-0.12 | 0.00 | -0.01 | ||
SEX | +SEX | -0.10 | 0.00 | 0.00 | |||
EDUCATION | +EDUCATION | -0.14 | 0.00 | -0.00 | +-0.01 | ||
MARRIAGE | --0.17 | +MARRIAGE | +-0.16 | 0.00 | 0.00 | ||
AGE | -0.13 | +AGE | +0.10 | 0.00 | 0.02 | ||
PAY_0 | +PAY_0 | 1.00 | 1.00 | 1.00 | |||
PAY_2 | -0.11 | -0.03 | +PAY_2 | +0.12 | +0.23 | 0.23 | |
PAY_3 | -0.09 | -0.04 | +PAY_3 | +0.10 | 0.06 | +0.07 | |
PAY_4 | -0.04 | -0.04 | -0.08 | +PAY_4 | +-0.01 | +-0.05 | +-0.06 |
PAY_5 | -0.03 | -0.04 | +PAY_5 | 0.08 | +0.06 | +0.07 | |
PAY_6 | --0.01 | --0.03 | --0.05 | +PAY_6 | +0.01 | +0.04 | +0.05 |
BILL_AMT1 | --0.17 | +BILL_AMT1 | +-0.18 | 0.00 | -0.03 | ||
BILL_AMT2 | -0.06 | +BILL_AMT2 | +0.07 | 0.01 | -0.02 | +0.04 | |
BILL_AMT3 | -0.05 | +BILL_AMT3 | +0.02 | 0.00 | -0.05 | +0.04 | |
BILL_AMT4 | -0.00 | -0.00 | +BILL_AMT4 | +0.02 | 0.00 | +0.04 | |
BILL_AMT5 | --0.04 | +BILL_AMT5 | +0.02 | 0.00 | --0.05 | +0.04 | |
BILL_AMT6 | -0.07 | +BILL_AMT6 | +-0.01 | 0.00 | -0.05 | +-0.04 | |
PAY_AMT1 | --0.19 | +PAY_AMT1 | +-0.20 | 0.00 | -0.01 | ||
PAY_AMT2 | --0.13 | +PAY_AMT2 | +-0.12 | 0.00 | -0.02 | ||
PAY_AMT3 | --0.05 | +PAY_AMT3 | +-0.08 | 0.00 | --0.07 | +-0.02 | |
PAY_AMT4 | --0.06 | +PAY_AMT4 | +-0.05 | 0.00 | --0.01 | +-0.02 | |
PAY_AMT5 | --0.09 | +PAY_AMT5 | +-0.03 | 0.00 | -0.01 | ||
PAY_AMT6 | --0.07 | +PAY_AMT6 | +-0.08 | 0.00 | --0.01 | +-0.02 |
Selecting the probability threshold based on which we predict the class of an observation is a decision the user needs to make. While in some cases a reasonable probability threshold is 50%, in other cases it may be 99.9% or 0.1%.
Question:
-Can you think of such a scenario?
+Answer:
For different choices of the probability threshold, one can measure a number of classification performance metrics, which are outlined next.
+ | Hit Ratio | ||
---|---|---|---|
Logistic Regression | -81.86667 | +Logistic Regression | +82.50000 |
First CART | -82.36667 | +First CART | +83.63333 |
Second CART | -82.53333 | +Second CART | +83.40000 |
+ | Hit Ratio | ||
---|---|---|---|
Logistic Regression | -81.02083 | +Logistic Regression | +80.8750 |
First CART | -81.95000 | +First CART | +81.9625 |
Second CART | -83.13750 | +Second CART | +83.1000 |
A simple benchmark to compare the hit ratio performance of a classification model against is the Maximum Chance Criterion. This measures the proportion of the class with the largest size. For our validation data the largest group is customers who do not default: 2354 out of 3000 customers). Clearly, if we classified all individuals into the largest group, we could get a hit ratio of 78.47% without doing any work. One should have a hit rate of at least as much as the Maximum Chance Criterion rate, although as we discuss next there are more performance criteria to consider.
+A simple benchmark to compare the hit ratio performance of a classification model against is the Maximum Chance Criterion. This measures the proportion of the class with the largest size. For our validation data the largest group is customers who do not default: 2397 out of 3000 customers). Clearly, if we classified all individuals into the largest group, we could get a hit ratio of 79.9% without doing any work. One should have a hit rate of at least as much as the Maximum Chance Criterion rate, although as we discuss next there are more performance criteria to consider.
+ | Predicted 1 (default) | Predicted 0 (no default) | |||
---|---|---|---|---|---|
Actual 1 (default) | -38.39 | -61.61 | +Actual 1 (default) | +34.66 | +65.34 |
Actual 0 (no default) | -5.35 | -94.65 | +Actual 0 (no default) | +4.05 | +95.95 |
Remember that each observation is classified by our model according to the probabilities Pr(0) and Pr(1) and a chosen probability threshold. Typically we set the probability threshold to 0.5 - so that observations for which Pr(1) > 0.5 are classified as 1’s. However, we can vary this threshold, for example if we are interested in correctly predicting all 1’s but do not mind missing some 0’s (and vice-versa).
When we change the probability threshold we get different values of hit rate, false positive and false negative rates, or any other performance metric. We can plot for example how the false positive versus true positive rates change as we alter the probability threshold, and generate the so called ROC curve.
The ROC curves for the validation data for the logistic regression as well as both the CARTs above are as follows:
- +How should a good ROC curve look like? A rule of thumb in assessing ROC curves is that the “higher” the curve (i.e., the closer it gets to the point with coordinates (0,1)), hence the larger the area under the curve, the better. You may also select one point on the ROC curve (the “best one” for our purpose) and use that false positive/false negative performances (and corresponding threshold for P(1)) to assess your model.
Questions:
The lift curve is a popular technique in certain applications, such as direct marketing or credit risk.
+The gains chart is a popular technique in certain applications, such as direct marketing or credit risk.
For a concrete example, consider the case of a direct marketing mailing campaign. Say we have a classifier that attempts to identify the likely responders by assigning each case a probability of response. We may want to select as few cases as possible and still capture the maximum number of responders possible.
-We can measure the percentage of all responses the classifier captures if we only select, say, x% of cases: the top x% in terms of the probability of response assigned by our classifier. For each percentage of cases we select (x), we can plot the following point: the x-coordinate will be the percentage of all cases that were selected, while the y-coordinate will be the percentage of all class 1 cases that were captured within the selected cases (i.e., the ratio true positives/positives of the classifier, assuming the classifier predicts class 1 for all the selected cases, and predicts class 0 for all the remaining cases). If we plot these points while we change the percentage of cases we select (x) (i.e., while we change the probability threshold of the classifier), we get a curve that is called the lift curve.
-In the credit card default case we are studying, the lift curves for the validation data for our three classifiers are the following:
- -Notice that if we were to examine cases selecting them at random, instead of selecting the “best” ones using an informed classifier, the “random prediction” lift curve would be a straight 45-degree line.
+We can measure the percentage of all responses the classifier captures if we only select, say, x% of cases: the top x% in terms of the probability of response assigned by our classifier. For each percentage of cases we select (x), we can plot the following point: the x-coordinate will be the percentage of all cases that were selected, while the y-coordinate will be the percentage of all class 1 cases that were captured within the selected cases (i.e., the ratio true positives/positives of the classifier, assuming the classifier predicts class 1 for all the selected cases, and predicts class 0 for all the remaining cases). If we plot these points while we change the percentage of cases we select (x) (i.e., while we change the probability threshold of the classifier), we get a chart that is called the gains chart.
+In the credit card default case we are studying, the gains charts for the validation data for our three classifiers are the following:
+ +Notice that if we were to examine cases selecting them at random, instead of selecting the “best” ones using an informed classifier, the “random prediction” gains chart would be a straight 45-degree line.
Question:
Why?
Answer:
So how should a good lift curve look like? The further above this 45-degree reference line our lift curve is, the better the “lift”. Moreover, much like for the ROC curve, one can select the percentage of all cases examined appropriately so that any point of the lift curve is selected.
+So how should a good gains chart look like? The further above this 45-degree reference line our gains curve is, the better the “gains”. Moreover, much like for the ROC curve, one can select the percentage of all cases examined appropriately so that any point of the gains curve is selected.
Question:
-Which point on the lift curve should we select in practice?
+Which point on the gains curve should we select in practice?
Answer:
Finally, we can generate the so called profit curve, which we often use to make our final decisions. The intuition is as follows. Consider a direct marketing campaign, and suppose it costs $1 to send an advertisement, and the expected profit from a person who responds positively is $45. Suppose you have a database of 1 million people to whom you could potentially send the promotion. Typical response rates are 0.05%. What fraction of the 1 million people should you send the promotion to?
-To answer this type of questions, we need to create the profit curve. We can measure some measure of profit if we only select the top cases in terms of the probability of response assigned by our classifier. We can plot the profit curve by changing, as we did for the lift curve, the percentage of cases we select, and calculating the corresponding total estimated profit (or loss) we would generate. This is simply equal to:
+To answer this type of questions, we need to create the profit curve. We can measure some measure of profit if we only select the top cases in terms of the probability of response assigned by our classifier. We can plot the profit curve by changing, as we did for the gains chart, the percentage of cases we select, and calculating the corresponding total estimated profit (or loss) we would generate. This is simply equal to:
-Total Estimated Profit = (% of 1’s correctly predicted)x(value of capturing a 1) + (% of 0’s correctly predicted)x(value of capturing a 0) + (% of 1’s incorrectly predicted as 0)x(cost of missing a 1) + (% of 0’s incorrectly predicted as 1)x(cost of missing a 0)
Calculating the expected profit requires we have an estimate of the four costs/values: the value of capturing a 1 or a 0, and the cost of misclassifying a 1 into a 0 or vice versa.
Given the values and costs of correct classifications and misclassifications, we can plot the total estimated profit (or loss) as we change the percentage of cases we select, i.e., the probability threshold of the classifier, like we did for the ROC and the lift curves.
+Given the values and costs of correct classifications and misclassifications, we can plot the total estimated profit (or loss) as we change the percentage of cases we select, i.e., the probability threshold of the classifier, like we did for the ROC and the gains chart.
In our credit card default case, we consider the following business profit and loss to the credit card issuer for the correctly classified and misclassified customers:
+ | Predict 1 (default) | Predict 0 (no default) | |
---|---|---|---|
Actual 1 (default) | +Actual 1 (default) | 0 | -1e+05 |
Actual 0 (no default) | +Actual 0 (no default) | 0 | 2e+04 |
Based on these profit and cost estimates, the profit curves for the validation data for the three classifiers are:
- +We can then select the percentage of selected cases that corresponds to the maximum estimated profit (or minimum loss, if necessary).
Question:
Which point on the profit curve would you select in practice?
@@ -1994,25 +3326,25 @@Having iterated steps 2-5 until we are satisfied with the performance of our selected model on the validation data, in this step the performance analysis outlined in step 5 needs to be done with the test sample. This is the performance that best mimics what one should expect in practice upon deployment of the classification solution, assuming (as always) that the data used for this performance analysis are representative of the situation in which the solution will be deployed.
-Let’s see in our case how the hit ratio, confusion matrix, ROC curve, lift curve, and profit curve look like for our test data. For the hit ratio and the confusion matrix we use 50% as the probability threshold for classification.
+Let’s see in our case how the hit ratio, confusion matrix, ROC curve, gains chart, and profit curve look like for our test data. For the hit ratio and the confusion matrix we use 50% as the probability threshold for classification.
+ | Hit Ratio | ||||
---|---|---|---|---|---|
Logistic Regression | -81.23333 | +Logistic Regression | +81.16667 | ||
First CART | -82.16667 | +First CART | +82.43333 | ||
Second CART | +Second CART | 82.70000 |
+ | Predicted 1 (default) | Predicted 0 (no default) | |||
---|---|---|---|---|---|
Actual 1 (default) | -37.52 | -62.48 | +Actual 1 (default) | +34.69 | +65.31 |
Actual 0 (no default) | -4.73 | -95.27 | +Actual 0 (no default) | +3.68 | +96.32 |
ROC curves for the test data:
- -Lift curves for the test data:
- -Finally the profit curves for the test data, using the same profit/cost estimates as we did above:
- + +Gains chart for the test data:
+ +Finally the profit curves for the test data, using the same profit/cost estimates as above:
+Questions: