Conteúdo Programático

R Básico

  • Lista

    • Conceito de lista

    • Criação e manipulação de listas

    • Acessando elementos da lista

    • Funções úteis para listas (ex. length(), append(), lapply())

  • Tabela

    • Estruturas de tabela no R

    • Funções básicas de manipulação de tabelas (table(), as.table())

    • Aplicação em análise de dados

  • Data Frame

    • Conceito e criação de data frames

    • Manipulação de data frames

    • Acessando e modificando dados

    • Funções úteis (head(), tail(), summary(), str())

  • Factor

    • Conceito de fatores

    • Criação e manipulação de fatores

    • Importância em análises estatísticas

    • Funções relacionadas (factor(), levels(), relevel())

  • Família “apply”

    • Funções da família apply (apply(), lapply(), sapply(), tapply(), vapply())

    • Aplicações e exemplos práticos

Tidyverse

O tidyverse é uma coleção opinativa de pacotes R projetados para a ciência de dados.

Readr & Readxl

  • read_csv(): Leitura de arquivos CSV

  • read_tsv(): Leitura de arquivos TSV

  • read_csv2(): Leitura de arquivos CSV com ponto e vírgula

  • read_delim(): Leitura de arquivos delimitados

  • read_fwf(): Leitura de arquivos de largura fixa

  • read_table(): Leitura de arquivos separados por espaços em branco

  • read_log(): Leitura de arquivos de registro da Web

Dplyr

O dplyr é uma gramática de manipulação de dados, fornecendo um conjunto consistente de funções que o ajudam a resolver os desafios comuns na manipulação de dados:

  • mutate(): Adiciona novas variáveis que são funções de variáveis existentes

  • select(): Seleciona variáveis com base em seus nomes

  • filter(): Seleciona casos com base em seus valores

  • summarise(): Reduz vários valores a um único resumo

  • arrange(): Altera a ordem das linhas

 Tidyr

O objetivo do tidyr é ajudá-lo a criar dados organizados. Dados organizados são dados em que:

  • Cada variável é uma coluna; cada coluna é uma variável.

  • Cada observação é uma linha; cada linha é uma observação.

  • Cada valor é uma célula; cada célula é um único valor.

Funções principais:

  • pivot_longer() e pivot_wider()

  • nest() e unnest()

  • separate_wider_delim(), separate_wider_position(), separate_wider_regex()

  • unite()

  • complete(), drop_na(), fill(), replace_na()

Broom

O broom resume as principais informações sobre modelos em tibble()s:

  • tidy(): Resume as informações sobre os componentes do modelo

  • glance(): Relata informações sobre o modelo inteiro

  • augment(): Adiciona informações sobre observações a um conjunto de dados

Stringr

O pacote stringr fornece um conjunto de funções para trabalhar com strings:

  • str_detect(): Informa se há alguma correspondência com o padrão

  • str_count(): Conta o número de padrões

  • str_subset(): Extrai os componentes correspondentes

  • str_locate(): Fornece a posição da correspondência

  • str_extract(): Extrai o texto da correspondência

  • str_match(): Extrai partes da correspondência definidas por parênteses

  • str_replace(): Substitui as correspondências por um novo texto

  • str_split(): Divide uma cadeia de caracteres em várias partes

Forcats

O pacote forcats fornece ferramentas para trabalhar com fatores:

  • fct_reorder(): Reordenar um fator por outra variável

  • fct_infreq(): Reordenar um fator pela frequência dos valores

  • fct_relevel(): Alteração manual da ordem de um fator

  • fct_lump(): Colapsar os valores menos/mais frequentes de um fator em “outros”

Lubridate

Facilita a manipulação de datas e horas:

  • ymd(), ymd_hms(), dmy(), dmy_hms(), mdy()

  • Funções para obter e definir componentes de datas e horas (year(), month(), mday(), hour(), minute(), second())

  • Operações matemáticas com datas:

    • Durações

    • Períodos

    • Intervalos

Purrr

O purrr aprimora o kit de ferramentas de programação funcional (FP) do R:

  • map(): Substitui muitos loops for por um código mais sucinto e fácil de ler

Ggplot2

O ggplot2 é um sistema para criar gráficos de forma declarativa:

  • ggplot(): Inicia a construção de um gráfico

  • aes(): Mapeamento estético

  • geom_point(), geom_histogram(): Adição de camadas gráficas

  • scale_colour_brewer(): Escalas

  • facet_wrap(): Especificações de facetas

  • coord_flip(): Sistemas de coordenadas

Data e local

O curso já tem data marcada e será nos dias 7, 8 e 9 de agosto das 14h às 18h na Seção Técnica de Informática da ESALQ/USP (SIESALQ) – Piracicaba/SP  

Inscrição

As inscrições serão realizadas através da plataforma Doity. Veja aqui.

 

 

Genetics and Plant Breeding Group “Prof. Roland Vencovsky”
Genetics Department – LGN
Avenida Pádua Dias, 11 – Piracicaba/SP – CEP 13418-900