En este proyecto de GitHhub podrás encontrar parte del material que utilizo para impartir las clases de Introducción a la Ciencia de Datos (Data Science) con Python.
El contenido compartido es el siguiente, dividiendose el curso en 3 módulos:
Breve introducción al mundo de la ciencia de datos, describiendo conceptos como: Data Driven Decision Makining (DDDM), Big Data, Fases del Big Data, ¿Que es la Ciencia de Datos?, Ciclo de vida de un proyecto Data Science, Roles en un proyecto Data Science, en qué invierte el tiempo un Cientifico de Datos y por último ¿Que es Kaggle?.
- En este módulo se muestran los conceptos más importantes para conseguir conocimiento a partir de los datos: Recolección de datos, Limpieza de Datos, Analisis Exploratorio de Datos y Visualización de la información por medio de gráficas son algunas de las cosas que se muestrán en esta módulo usando librerías como Pandas, Numpy, Matplotlib y Seaborn.
En Español: "Análisis Exploratorio de Datos"
- 03_Pandas_Objetos_Basicos.ipynb
- 04_Pandas_Dataframe_Atributos_Metodos_Utiles.ipynb
- 05_Pandas_Dataframe_Info_Description_Filtros_Nuevas_Columnas.ipynb
- 06_Pandas_Dataframe_Agregaciones_Ordenaciones.ipynb
- 07_Pandas_Dataframe_Join_Union.ipynb
- 09_Pandas_Dataframe_Pivot_Table.ipynb
-
En este módulo se muestra una introducción al Machine Learning asi como los algoritmos de aprendizaje más básicos para cada una de las tareas del aprendizaje supervisado y no supervisado, haciendo uso de la librería de Scikit-Learn.
-
Los algoritmos de aprendizaje que se verán son:
- Aprendizaje Supervisado
- Regresión: Regresión Lineal
- Clasificación: Regresión Logística
- Aprendizaje No Supervisado
- Clustering: K-Means y Gaussian Mixture Models
- Reducción de Dimensionalidad: Analisis de Componentes Principales (PCA)
- Aprendizaje Supervisado
- 16_Regresion_Lineal_Simple.ipynb
- 17_Regresion_Lineal_Simple_Sckit.ipynb
- 19_Regresion_Lineal_Multiple.ipynb
- 20_Regresion_Lineal_Modelo_Matricial.ipynb
- 21_Regresion_Lineal_Multiple_Scikit.ipynb
- 23_Evaluacion_Modelos_Regresion.ipynb
- 24_Hold_Out_Regresion_Lineal_Multiple.ipynb
- 25_Cross_Validation_Regresion_Lineal_Multiple.ipynb
- 27_Clasificacion_Regresion_Logistica.ipynb
- 28_Clasificacion_Regresion_Logistica_Scikit_Iris.ipynb
- 29_Clasificacion_Multiple_Regresion_Logistica_Scikit_Iris.ipynb
- 30_Clasificacion_Multiple_N_Features_Regresion_Logistica_Scikit_Iris.ipynb
- 35_Transformaciones_de_Datos_de_Variables_Categoricas.ipynb
- 36_Normalizacion_de_Datos.ipynb
- 37_Correlacion_de_Datos.ipynb
- 38_Clustering_K_Means.ipynb
- 39_Clustering_K_Means_Scikit.ipynb
- 40_Clustering_K_Means_4_Features_Scikit.ipynb
- 41_Seleccion_Optima_Numero_Clusters.ipynb
- 42_Ejemplo_Segmentacion_Clientes_Centros_Comerciales.ipynb
- 43_Clustering_Gaussian_Mixture_Models.ipynb
- 44_Clustering_Gaussian_Mixture_Models_Scikit.ipynb
Para ejecutar los scripts y notebooks de este proyecto es necesario tener creado un entorno virtual con conda (también puede ser con un virtualenv), en el que a parte de tener instaladas las librerías que te instala anaconda por defecto al crear el entorno (numpy, scipy, pandas, matplotlib, scikit, etc) hay que instalar una serie de librerías específicas que se indican en el fichero requirements.txt.
A continuación se muestran los pasos a seguir para crear el entorno virtual con conda por medio de una consola:
Nota: estos mismos pasos pueden realizarse también por medio del Anaconda Navigator, pero mejor hacerlo por consola.
1.- Crear un entorno virtual con un python 3.6 llamado "python36_DS"
>> conda create -n python36_DS python=3.6 anaconda
2.- Activar el entorno virtual
>> conda activate python36_DS
3.- Instalar librerias con pip:
>> pip install -r requirements.txt
-
Si queremos instalar las librerias de forma manual podemos hacerlo de la siguiente manera "una a una":
>> pip install nombre_libreria==VERSION
-
Por ejemplo para instalar la librería de Tweepy lo podríamos hacer:
>> pip install tweepy==3.8.0
Nota: La instalación de librerías también se podria realizar por medio del repositorio de "conda" (en vez de "PIP"), pero estos comandos no los mostramos en este README.
A continuación se muestran algunas acciones extra:
1.- Desinstalar librerías:
>> pip uninstall nombre_libreria
2.- Desactivar el entorno virtual (previamente tiene que estar activado)
>> conda deactivate
3.- Eliminar entorno virtual (llamado "python36_DS")
>> conda remove -n python36_DS -all