Pyspark Example

Pyspark examples on how to load data from different format into Spark Dataframes.

Installation

Python 3.x should be available on OS. Create virtual environment in $HOME dir ($HOME/venv3x)
Ensure JAVA_HOME is setup in environment

$:~/pyspark_example$ source ~/venv3x/bin/activate;
$:~/pyspark_example$ pip install -r requirements.txt

Add src folder to PYTHONPATH

$:~/pyspark_example$ export PYTHONPATH=$PYTHONPATH:$PWD/src

Run a module

$:~/pyspark_example$python csv_2_dataframe.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
src/examples		src/examples
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt