5 Vôos em Nova York de 2013
Neste capítulo, vamos nos concentrar em como usar o pacote dplyr
e o que aprendemos no capítulo anterior. Ilustraremos as ideias principais usando dados do pacote nycflights13
e usaremos o ggplot2
para nos ajudar a entender os dados.
5.1 nycflights13
Este quadro de dados contém todos os 336.776 vôos que partiram de Nova York em 2013. Os dados são do Bureau of Transportation Statistics dos EUA e estão documentados em ?flights
.
## # A tibble: 336,776 x 19
## year month day dep_time sched_dep_time dep_delay arr_time
## <int> <int> <int> <int> <int> <dbl> <int>
## 1 2013 1 1 517 515 2 830
## 2 2013 1 1 533 529 4 850
## 3 2013 1 1 542 540 2 923
## 4 2013 1 1 544 545 -1 1004
## 5 2013 1 1 554 600 -6 812
## 6 2013 1 1 554 558 -4 740
## 7 2013 1 1 555 600 -5 913
## 8 2013 1 1 557 600 -3 709
## 9 2013 1 1 557 600 -3 838
## 10 2013 1 1 558 600 -2 753
## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,
## # arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,
## # origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,
## # minute <dbl>, time_hour <dttm>
Para ver todo o conjunto de dados, você pode executar o View(flights)
que abrirá o conjunto de dados no visualizador do RStudio.
As abreviações de letras sob os nomes das colunas descrevem o tipo de cada variável:
-int
significa números inteiros;
-dbl
significa números duplos ou reais;
-chr
significa vetores de caracteres ou seqüências de caracteres;
-dttm
significa data e hora (uma data + uma hora).
-lgl
significa vetores lógicos que contêm apenas TRUE
ou FALSE
;
-fctr
significa fatores, que R usa para representar variáveis categóricas com valores possíveis fixos.
-data
significa data.
Existem outros tipos comuns de variáveis que não são usadas neste conjunto de dados.
5.2 Formato
Vamos entender o formato do nosso banco e suas variáveis. Fazendo alterações e modificações necessárias para melhor compreender o processo.
Colunas do quadro de dados:
year, month e day referência a data de partida. Poderemos alterar os nomes para o nosso vernáculo.
dep_time e arr_time: horários reais de partida e chegada (formato em minutos)
sched_dep_time, sched_arr_time: horários de partida e chegada programados (formato em minutos)
dep_delay, arr_delay: Atrasos de partida e chegada, em minutos. Tempos negativos representam partidas/chegadas antecipadas.
carrier: códigos de operadoras das companhias aéreas.
flight: número do vôo.
tailnum: número da cauda do avião.
origin, dest: origem e destino.
air_time: quantidade de tempo gasto no ar, em minutos.
distance: distância entre aeroportos, em milhas.
hour, minute: hora da partida programada dividida em hora e minutos.
time_hour: data e hora agendadas do voo como uma data POSIXct. Juntamente com a origem, pode ser usado para unir dados de voos a dados meteorológicos.