Analys av rubrikerna på 1 976 337 nyhetsartiklar från 7 februari 2014 till 18 juni 2017.

Koden kommer från David Robinson, vars blogg jag varmt rekommenderar andra att följa, och jag har endast modifierat koden för mitt ändamål.


Datan innehåller inte bara nyhetsartiklar utan även debattartiklar och kulturartiklar. Urvalskriteriet var de 12 största nyhetssajterna vid 2014. Det är delar av Aftonbladet, Expressen, DN, SvD, GP, SVT, Metro, DI, SR, Sydsvenskan, Nyheter24, Helsingborgs dagblad. En mängd andra nyhetssajter har också tillkommit under 2017 som är med i denna analys.

Datan är fritt tillgänglig via SND, men den datan sträcker sig dock bara till och med hösten 2015 och innehåller bara de 12 nyhetssajterna.



## Loading required package: DBI
getquery <- function(SqlQuery) {
  drv <- dbDriver("MySQL")
  con <- dbConnect(drv, host="localhost", user="root", pass="root", dbname="headlines")
  df <- dbGetQuery(con, statement=SqlQuery)

df <- getquery("SELECT id, retrieved, title FROM articles ORDER BY id DESC")

Encoding(df$title) <- "UTF-8"

titles <- df %>% mutate(time = as.POSIXct(retrieved, origin = "1970-01-01"),
         month = round_date(time, "month")) 


Plockar bort stoppord (“och”, “att”, “så” etc) på svenska.

# Swedish.
swe_stopwords <- function() {
  words <- read.csv("", encoding="UTF-8", header=FALSE)
  return(data.frame(word=words$V1, lexicon="peterdalle"))

# Custom.
custom_stopwords <- data.frame(word=c("quot", "visar", "person"), lexicon="peterdalle")

# Combine.
stopwords_combined <- rbind(swe_stopwords(), custom_stopwords)


Bryter ned rubrikerna till ord.

title_words <- titles %>%
  distinct(title, .keep_all = TRUE) %>%
  unnest_tokens(word, title, drop = FALSE) %>%
  distinct(id, word, .keep_all = TRUE) %>%
  anti_join(stopwords_combined, by = "word") %>%
  filter(str_detect(word, "[^\\d]")) %>%
  group_by(word) %>%
  mutate(word_total = n()) %>%

word_counts <- title_words %>%
  count(word, sort = TRUE)

Vanligaste orden

word_counts %>%
  head(25) %>%
  mutate(word = reorder(word, n)) %>%
  ggplot(aes(word, n)) +
    geom_col(fill = "lightblue") +
    scale_y_continuous(labels = comma_format()) +
    coord_flip() +
    labs(title = "Vanligaste orden",
         subtitle = paste("Baserat på ", NROW(titles), " nyhetsrubriker med stoppord borttagna", sep=""),
         x = NULL,
         y = "Frekvens")

Förändringar över tid

stories_per_month <- titles %>%
  group_by(month) %>%
  summarize(month_total = n())

word_month_counts <- title_words %>%
  filter(word_total >= 1000) %>%
  count(word, month) %>%
  complete(word, month, fill = list(n = 0)) %>%
  inner_join(stories_per_month, by = "month") %>%
  mutate(percent = n / month_total) %>%
  mutate(year = year(month) + yday(month) / 365)

Growth model

Uppskatta vilket ord som ökat mest med en growth curve model.


mod <- ~ glm(cbind(n, month_total - n) ~ year, ., family = "binomial")

slopes <- word_month_counts %>%
  nest(-word) %>%
  mutate(model = map(data, mod)) %>%
  unnest(map(model, tidy)) %>%
  filter(term == "year") %>%

# Remove more stop words ex post facto.
slopes <- slopes %>% filter(!(word %in% c("quot", "visar", "person", "ville", "hittade", "söker", "the", "just", "donald", "trumps", "förd", "höjer", "sänker")))

Ord som ökar i frekvens

slopes %>%
  head(16) %>%
  inner_join(word_month_counts, by = "word") %>%
  mutate(word = reorder(word, -estimate)) %>%
  ggplot(aes(month, n / month_total, color = word)) +
    geom_line(show.legend = FALSE) +
    scale_y_continuous(labels = percent_format()) +
    facet_wrap(~ word, scales = "free_y") +
    expand_limits(y = 0) +
    labs(title = "16 snabbast växande orden i nyhetsrubriker",
         subtitle = paste("Baserat på ", NROW(titles), " nyhetsrubriker med stoppord borttagna", sep=""),
         x = "År",
         y = "Procent av rubriker som innehåller ord")

Ord som minskar i frekvens

slopes %>%
  tail(16) %>%
  inner_join(word_month_counts, by = "word") %>%
  mutate(word = reorder(word, estimate)) %>%
  ggplot(aes(month, n / month_total, color = word)) +
    geom_line(show.legend = FALSE) +
    scale_y_continuous(labels = percent_format()) +
    facet_wrap(~ word, scales = "free_y") +
    expand_limits(y = 0) +
    labs(title = "16 snabbast sjunkande orden i nyhetsrubriker",
         subtitle = paste("Baserat på ", NROW(titles), " nyhetsrubriker med stoppord borttagna", sep=""),
         x = "År",
         y = "Procent av rubriker som innehåller ord")

Jämförelse mellan ord

word_month_counts %>%
  filter(word %in% c("ukraina", "ryssland", "usa", "sverige")) %>%
  ggplot(aes(month, n / month_total, color = word)) +
    geom_line(size = 1, alpha = .8) +
    scale_y_continuous(labels = percent_format()) +
    expand_limits(y = 0) +
    labs(title = "Förekomst av länder",
         x = "År",
         y = "Procent av rubriker som innehåller ordet")

word_month_counts %>%
  filter(word %in% c("flyktingar", "migranter", "nyanlända")) %>%
  ggplot(aes(month, n / month_total, color = word)) +
    geom_line(size = 1, alpha = .8) +
    scale_y_continuous(labels = percent_format()) +
    expand_limits(y = 0) +
    labs(title = "Förekomst av migration m.m.",
         x = "År",
         y = "Procent av rubriker som innehåller ordet")


Ord som hade en kraftig topp men sedan försvann.


mod2 <- ~ glm(cbind(n, month_total - n) ~ ns(year, 4), ., family = "binomial")

# Fit a cubic spline to each shape
spline_predictions <- word_month_counts %>%
  mutate(year = as.integer(as.Date(month)) / 365) %>%
  nest(-word) %>%
  mutate(model = map(data, mod2)) %>%
  unnest(map2(model, data, augment, type.predict = "response"))

# Find the terms with the highest peak / average ratio
peak_per_month <- spline_predictions %>%
  group_by(word) %>%
  mutate(average = mean(.fitted)) %>%
  top_n(1, .fitted) %>%
  ungroup() %>%
  mutate(ratio = .fitted / average) %>%
  filter(month != min(month), month != max(month)) %>%
  top_n(16, ratio)

# Peaks
peak_per_month %>%
  select(word, peak = month) %>%
  inner_join(spline_predictions, by = "word") %>%
  mutate(word = reorder(word, peak)) %>%
  ggplot(aes(month, percent)) +
    geom_line(aes(color = word), show.legend = FALSE) +
    geom_line(aes(y = .fitted), lty = 2) +
    facet_wrap(~ word, scales = "free_y") +
    scale_y_continuous(labels = percent_format()) +
    expand_limits(y = 0) +
    labs(title="16 ord som toppade och sedan försvann från nyhetsrubrikerna",
         subtitle="Spline fit (df = 4) shown.\nSelected based on the peak of the spline divided by the overall average; ordered by peak month.",
         x = "År",
         y = "Procent av rubriker med ord")