

Visualização de dados em R: o que é + exemplos
Usar R como uma plataforma de análise de dados permite que desenvolvedores e cientistas de dados criem vários tipos de visualizações para representar dados brutos e complexos com codificação mínima.
Os dados estão em todos os lugares ao nosso redor e se torna fundamental que os entendamos. A visualização de dados é uma ferramenta poderosa que nos permite transformar dados brutos em representação visual para que os dados sejam mais fáceis e rápidos de entender pelo cérebro humano.
Hoje, há muitos programas, aplicativos e softwares on-line que nos permitem criar facilmente belas visualizações de dados com alguns cliques. Todos eles vêm com diferentes capacidades e funcionalidades e exigem um conjunto de habilidades diferente para usá-los. Neste artigo, vamos nos concentrar na visualização de dados R. R é uma linguagem de programação e ambiente para computação estatística, análise gráfica de dados e pesquisa científica.
Usar R como uma plataforma de análise de dados permite que desenvolvedores e cientistas de dados criem vários tipos de visualizações para representar dados brutos e complexos com codificação mínima.
Neste artigo, mostraremos os conceitos básicos do uso de R para visualização de dados, listaremos as diferenças entre visualização de dados em R e Python e mostraremos exemplos para que você possa entender melhor o que é visualização de dados em R e como ela funciona.
O que é visualização de dados em R?
Criar visualizações de dados em R é uma técnica de obter insights de dados com a ajuda de um meio visual. Ao usar as diversas funcionalidades do R, você pode criar visualizações de dados atraentes escrevendo apenas algumas linhas de código. Para criar visualizações de dados, o R fornece várias bibliotecas de visualização, incluindo ggplot2, que é um dos pacotes mais amplamente usados. O Ggplot2 permite que você crie quase qualquer tipo de gráfico e melhora a qualidade e a estética dos seus gráficos.
Como criar visualização de dados em R?
A melhor coisa no processo de criação de visualizações de dados com R é que você não precisa ser um programador R ou especialista em análise de dados. Há muitos conjuntos de dados disponíveis em R nos quais você pode trabalhar, então você nem precisa preparar seu próprio conjunto de dados.
Este exemplo de visualização R usa o conjunto de dados Orange integrado para traçar a idade e a circunferência da árvore.
ggplot(Orange) + geom_line(aes(x = age, y = circumference, color = Tree))
Resultando nesta visualização:

As bibliotecas de visualização fornecidas e os conjuntos de dados integrados são completos e apresentam tudo o que você precisa para experimentar o R para criar suas visualizações de dados e ver resultados instantâneos.
Visualização da linha do tempo R
As visualizações de linha do tempo do R são ferramentas visuais que exibem uma sucessão de eventos em ordem cronológica. As visualizações de linha do tempo são ótimas para relatórios de casos e apresentações, e também podem ser muito úteis no setor de saúde, exibindo o curso clínico de um paciente e no gerenciamento de projetos, onde uma linha do tempo do projeto pode ser criada com marcos.
Este exemplo em R mostra como criar um quadro de dados com Projetos e Tarefas e plotar os objetos de Tarefa em uma Visualização de Linha do Tempo R.
df <- structure(list(Project = structure(c(1L, 1L, 1L, 2L, 2L, 2L), .Label = c("Project 1", "Project 2"), class = "factor"), + Task = structure(c(1L, 2L, 1L, 2L, 1L, 2L), .Label = c("Task 1", + "Task 2"), class = "factor"), StartDay = c(1L, 2L, 2L, 2L, 3L, 5L), StopDay = c(3L, 5L, 8L, 4L, + 5L, 6L)), .Names = c("Project", "Task", "StartDay", + "StopDay"), class = "data.frame", row.names = c(NA, -6L)) df$Task <- factor(df$Task, levels(df$Task)[c(2,1)]) ggplot(data=df, aes(color=Task))+ geom_segment(aes(x=StartDay, xend=StopDay, y=Task, yend=Task),lwd=12)+ facet_grid(Project~.)+xlab("Days Allocated")+ylab("Tasks Lists")
Resultando nesta visualização da Linha do Tempo:

As visualizações de linha do tempo do R geralmente são criadas com a biblioteca ggplot2 no R Studio, onde camadas de detalhes podem ser adicionadas a essas visualizações usando cores, formas e outros elementos visuais para torná-las mais atraentes e facilmente compreensíveis.
Visualização da Árvore R
O pacote R ggtree fornece visualização programável de estruturas semelhantes a árvores e dados associados. O ggtree foi originalmente projetado para trabalhar com árvores filogenéticas, mas depois foi expandido para suportar outras estruturas semelhantes a árvores, o que estende a aplicação do ggtree para apresentar dados de árvores em outras disciplinas também. A biblioteca R party é outra biblioteca popular que inclui a função ctree() para renderizar visualizações de árvores de decisão. Neste exemplo, uma árvore de decisão é renderizada usando o conjunto de dados readingSkills integrado.
library(party) input.dat <- readingSkills[c(1:105),] png(file = "decision_tree.png") output.tree <- ctree(nativeSpeaker ~ age + shoeSize + score, data = input.dat) plot(output.tree)
Este código de exemplo renderizará esta visualização R da árvore de decisão:

Árvores de decisão, por exemplo, são amplamente utilizadas para prever um resultado a partir de um conjunto de recursos e podem fornecer previsões com precisão desejável, sendo ainda fáceis de entender e interpretar.
Os modelos de árvore de decisão compreendem um conjunto de algoritmos de aprendizado de máquina. Acostumar-se à simplicidade desses modelos é um elemento importante na criação de estruturas baseadas em árvores mais complexas, como árvores com gradiente reforçado.
Visualização de dados em R vs Python
Ferramentas para visualizações estão disponíveis em R e Python. Ambas nos fornecem a capacidade de criar gráficos estatísticos complexos e atraentes para que possamos obter insights e aprender mais sobre os dados que possuímos. No entanto, existem algumas diferenças importantes entre as duas, então se você está se perguntando qual linguagem é a melhor escolha para suas visualizações de dados, verifique os prós e contras que reunimos para ajudá-lo a tomar a melhor decisão para seus dados.
Assim como R, Python também oferece múltiplas bibliotecas de visualização que vêm com vários recursos diferentes. Os mais populares entre eles incluem Matplotlib, Seaborn e ggplot que é baseado no ggplot2 do R.
As diferenças:
R é uma linguagem usada principalmente para análise de dados, enquanto Python é uma linguagem de programação de propósito geral que também pode ser usada para análise de dados, mas esse não é seu propósito principal. Ambas são bem equipadas para visualização de dados, mas personalizar gráficos em R é geralmente mais fácil e intuitivo. R foi criado para demonstrar os resultados da análise estatística com o módulo de gráficos base, permitindo que você crie gráficos e plotagens com facilidade, e você também pode usar ggplot2 para plotagens mais avançadas.
Considerações Finais
À medida que as empresas continuam a depender de dados para tomar decisões melhores e baseadas em fatos, a importância da visualização de dados crescerá ainda mais. E como técnicas de visualização como gráficos e tabelas são mais eficientes em termos de compreensão de dados em comparação com planilhas tradicionais e relatórios de dados desatualizados, ferramentas como a visualização de dados R são uma necessidade para cada equipe multifuncional.
No entanto, mesmo com a importância dos dados e insights, apenas tê-los não é mais suficiente. Para desbloquear todo o potencial dos dados, você precisa transformá-los em ações que se encaixem no seu fluxo de trabalho de operações diárias. Você pode transitar facilmente de insights para ação com Slingshot.
Com Slingshot, você pode analisar dados, criar belas visualizações de dados, colaborar com todos na sua organização e gerenciar todos os seus projetos com facilidade, tudo na mesma plataforma.
Interessado em aprender mais? Experimente Slingshot gratuitamente e veja como ele pode ajudar você a alavancar insights acionáveis, ao mesmo tempo em que facilita para sua equipe utilizar dados, cultivar uma cultura orientada a dados e melhorar a produtividade.