Curso R – Manipulação e Apresentação de Dados

Conteúdo Programático

R Básico

Lista
- Conceito de lista
- Criação e manipulação de listas
- Acessando elementos da lista
- Funções úteis para listas (ex. length(), append(), lapply())
Tabela
- Estruturas de tabela no R
- Funções básicas de manipulação de tabelas (table(), as.table())
- Aplicação em análise de dados
Data Frame
- Conceito e criação de data frames
- Manipulação de data frames
- Acessando e modificando dados
- Funções úteis (head(), tail(), summary(), str())
Factor
- Conceito de fatores
- Criação e manipulação de fatores
- Importância em análises estatísticas
- Funções relacionadas (factor(), levels(), relevel())
Família “apply”
- Funções da família apply (apply(), lapply(), sapply(), tapply(), vapply())
- Aplicações e exemplos práticos

Tidyverse

O tidyverse é uma coleção opinativa de pacotes R projetados para a ciência de dados.

Readr & Readxl

read_csv(): Leitura de arquivos CSV
read_tsv(): Leitura de arquivos TSV
read_csv2(): Leitura de arquivos CSV com ponto e vírgula
read_delim(): Leitura de arquivos delimitados
read_fwf(): Leitura de arquivos de largura fixa
read_table(): Leitura de arquivos separados por espaços em branco
read_log(): Leitura de arquivos de registro da Web

Dplyr

O dplyr é uma gramática de manipulação de dados, fornecendo um conjunto consistente de funções que o ajudam a resolver os desafios comuns na manipulação de dados:

mutate(): Adiciona novas variáveis que são funções de variáveis existentes
select(): Seleciona variáveis com base em seus nomes
filter(): Seleciona casos com base em seus valores
summarise(): Reduz vários valores a um único resumo
arrange(): Altera a ordem das linhas

Tidyr

O objetivo do tidyr é ajudá-lo a criar dados organizados. Dados organizados são dados em que:

Cada variável é uma coluna; cada coluna é uma variável.
Cada observação é uma linha; cada linha é uma observação.
Cada valor é uma célula; cada célula é um único valor.

Funções principais:

pivot_longer() e pivot_wider()
nest() e unnest()
separate_wider_delim(), separate_wider_position(), separate_wider_regex()
unite()
complete(), drop_na(), fill(), replace_na()

Broom

O broom resume as principais informações sobre modelos em tibble()s:

tidy(): Resume as informações sobre os componentes do modelo
glance(): Relata informações sobre o modelo inteiro
augment(): Adiciona informações sobre observações a um conjunto de dados

Stringr

O pacote stringr fornece um conjunto de funções para trabalhar com strings:

str_detect(): Informa se há alguma correspondência com o padrão
str_count(): Conta o número de padrões
str_subset(): Extrai os componentes correspondentes
str_locate(): Fornece a posição da correspondência
str_extract(): Extrai o texto da correspondência
str_match(): Extrai partes da correspondência definidas por parênteses
str_replace(): Substitui as correspondências por um novo texto
str_split(): Divide uma cadeia de caracteres em várias partes

Forcats

O pacote forcats fornece ferramentas para trabalhar com fatores:

fct_reorder(): Reordenar um fator por outra variável
fct_infreq(): Reordenar um fator pela frequência dos valores
fct_relevel(): Alteração manual da ordem de um fator
fct_lump(): Colapsar os valores menos/mais frequentes de um fator em “outros”

Lubridate

Facilita a manipulação de datas e horas:

ymd(), ymd_hms(), dmy(), dmy_hms(), mdy()
Funções para obter e definir componentes de datas e horas (year(), month(), mday(), hour(), minute(), second())
Operações matemáticas com datas:
- Durações
- Períodos
- Intervalos

Purrr

O purrr aprimora o kit de ferramentas de programação funcional (FP) do R:

map(): Substitui muitos loops for por um código mais sucinto e fácil de ler

Ggplot2

O ggplot2 é um sistema para criar gráficos de forma declarativa:

ggplot(): Inicia a construção de um gráfico
aes(): Mapeamento estético
geom_point(), geom_histogram(): Adição de camadas gráficas
scale_colour_brewer(): Escalas
facet_wrap(): Especificações de facetas
coord_flip(): Sistemas de coordenadas

Data e local

O curso já tem data marcada e será nos dias 7, 8 e 9 de agosto das 14h às 18h na Seção Técnica de Informática da ESALQ/USP (SIESALQ) – Piracicaba/SP

Inscrição

As inscrições serão realizadas através da plataforma Doity. Veja aqui.

Genetics and Plant Breeding Group “Prof. Roland Vencovsky”
Genetics Department – LGN
Avenida Pádua Dias, 11 – Piracicaba/SP – CEP 13418-900