5 Vôos em Nova York de 2013

Neste capítulo, vamos nos concentrar em como usar o pacote dplyr e o que aprendemos no capítulo anterior. Ilustraremos as ideias principais usando dados do pacote nycflights13 e usaremos o ggplot2 para nos ajudar a entender os dados.

5.1 nycflights13

Este quadro de dados contém todos os 336.776 vôos que partiram de Nova York em 2013. Os dados são do Bureau of Transportation Statistics dos EUA e estão documentados em ?flights.

## # A tibble: 336,776 x 19
##     year month   day dep_time sched_dep_time dep_delay arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>
##  1  2013     1     1      517            515         2      830
##  2  2013     1     1      533            529         4      850
##  3  2013     1     1      542            540         2      923
##  4  2013     1     1      544            545        -1     1004
##  5  2013     1     1      554            600        -6      812
##  6  2013     1     1      554            558        -4      740
##  7  2013     1     1      555            600        -5      913
##  8  2013     1     1      557            600        -3      709
##  9  2013     1     1      557            600        -3      838
## 10  2013     1     1      558            600        -2      753
## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,
## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,
## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,
## #   minute <dbl>, time_hour <dttm>

Para ver todo o conjunto de dados, você pode executar o View(flights) que abrirá o conjunto de dados no visualizador do RStudio.

As abreviações de letras sob os nomes das colunas descrevem o tipo de cada variável:

-int significa números inteiros;

-dbl significa números duplos ou reais;

-chr significa vetores de caracteres ou seqüências de caracteres;

-dttm significa data e hora (uma data + uma hora).

-lgl significa vetores lógicos que contêm apenas TRUE ou FALSE;

-fctr significa fatores, que R usa para representar variáveis categóricas com valores possíveis fixos.

-data significa data.

Existem outros tipos comuns de variáveis que não são usadas neste conjunto de dados.

5.2 Formato

Vamos entender o formato do nosso banco e suas variáveis. Fazendo alterações e modificações necessárias para melhor compreender o processo.

Colunas do quadro de dados:

  • year, month e day referência a data de partida. Poderemos alterar os nomes para o nosso vernáculo.

  • dep_time e arr_time: horários reais de partida e chegada (formato em minutos)

  • sched_dep_time, sched_arr_time: horários de partida e chegada programados (formato em minutos)

  • dep_delay, arr_delay: Atrasos de partida e chegada, em minutos. Tempos negativos representam partidas/chegadas antecipadas.

  • carrier: códigos de operadoras das companhias aéreas.

  • flight: número do vôo.

  • tailnum: número da cauda do avião.

  • origin, dest: origem e destino.

  • air_time: quantidade de tempo gasto no ar, em minutos.

  • distance: distância entre aeroportos, em milhas.

  • hour, minute: hora da partida programada dividida em hora e minutos.

  • time_hour: data e hora agendadas do voo como uma data POSIXct. Juntamente com a origem, pode ser usado para unir dados de voos a dados meteorológicos.