ex_01.qmd

---
title: "Exercise 1. Your turn"
---

## Load library packages

```{r}
library(janeaustenr)
library(tidyverse)
library(tidytext)
library(wordcloud2)
```

## Your Turn. Exercise 1.

Goal: Make a basic word cloud for the novel, *Pride and Predjudice*, `pride_prej_novel`

a.  Prepare: Add a line number to the text

```{r}
#| eval: false
pride_prej_novel <-  tibble(text = prideprejudice) %>%
  mutate(line = ________________)
```

b.  Tokenize `pride_prej_novel` with `unnest_tokens()`

```{r}
#| eval: false
pride_prej_novel %>% 
  unnest_tokens(____, _____)
```

c.  Remove stop-words

```{r}
#| eval: false
pride_prej_novel %>% 
  unnest_tokens(____, _____) %>% 
  anti_join(____________)
```

d.  calculate word frequency

```{r}
#| eval: false
pride_prej_novel %>% 
  unnest_tokens(____, _____) %>% 
  anti_join(____________) %>% 
  count(____________) 
```

e.  make a simple wordcloud

```{r}
#| eval: false
pride_prej_novel %>% 
  unnest_tokens(____, _____) %>% 
  anti_join(____________) %>% 
  count(____________)  %>% 
  with(wordcloud::wordcloud(____, ____, max.words = ___))
```

f.  Since "Friends don't let friends make word clouds", make a barplot of the word frequency.

```{r}
#| eval: false
pride_prej_novel %>% 
  unnest_tokens(word, text) %>% 
  anti_join(get_stopwords(), by = "word") %>% 
  count(word, sort = TRUE) %>% 
  slice_head(n = 10) %>% 
  ggplot(aes(x = n, y = fct_reorder(word, n))) +
  geom_col() +
  labs(title = "Word Frequency",
       subtitle = "Jane Austen novel",
       x = "", y = "",
       caption = "Source: janeaustenr")
```