Material del Workshop de Big Data
Usando un dataset de Credito Alemán se entrenará un algoritmo de Clasificación Random Forest y se buscará predecir el valor Creditable
que significa brindar credito.
- Analisis de risco de credito (credit-risk-analysis)
La clase CreditRiskTrain.scala hace las transformaciones de los datos de entrada para generar el modelo de Random Forest. También intentamos mejorar el modelo utilizando CrossValidator
# Compilar el proyecto
cd code/credit-risk-analysis
sbt clean assembly
# Conectarse al SparkMaster y hacer submit del proyecto de Entrenamiento
docker exec -it master bash
cd /app/credit-risk-analysis
spark-submit \
--class es.arjon.CreditRiskTrain \
--master 'spark://master:7077' \
target/scala-2.11/credit-risk-analysis-assembly-0.1.jar \
/dataset/credit-risk/germancredit.csv \
/dataset/credit-risk.model
# va tomar 4+ minutos para concluir el entrenamiento
Acceder a http://localhost:8080 y http://localhost:4040 para ver la SPARK-UI
ls -la /dataset/credit-risk.model
El archivo /dataset/credit-risk/germancredit-user-input.csv
simula entrada de usuarios con sus respectivas que son enviadas al modelo para prediccion.
spark-submit \
--class es.arjon.CreditRiskAnalysis \
--master 'spark://master:7077' \
target/scala-2.11/credit-risk-analysis-assembly-0.1.jar \
/dataset/credit-risk/germancredit-user-input.csv \
/dataset/credit-risk.model
Acceder a http://localhost:8080 y http://localhost:4040 para ver la SPARK-UI
Modificar el codigo para tomar la entrada de Kafka y escribir en Postgres
- Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests
- Original: Analysis of German Credit Data
Gustavo Arjones © 2017-2020