A leitura fascina, encanta e transforma vidas!

+55 (21) 99182-9537

Você conhece os profissionais de dados?

Analytics | Ciência de Dados | 1 de maio de 2025

Muito se fala sobre a área de dados hoje em dia, mas as diferenças entre os profissionais que atuam na área de dados ainda é um mistério para muitos. A área de dados é vasta, há muitas oportunidade e está em plena expansão. Além disso, está muito na moda falar em dados e cada vez o tema está mais popularizado. Mas você realmente entende como é o mundo de dados e a diferença entre os profissionais que atuam nessa área?

Neste artigo vamos falar sobre os três principais profissionais que trabalham diretamente com dados. Existem outras funções, ainda mais especializadas, porém são mais raramente encontradas no mercado. Aqui, vamos focar nas três funções que considero as principais.

A quem se destina este artigo?

Este artigo é escrito para pessoas com pouco ou nenhum conhecimento em dados. O objetivo é informar pessoas interessadas na área. Dessa forma, espere encontrar uma linguagem simples, objetiva e sem excessos de termos técnicos. Não haverá uma abordagem aprofundada dos temas ou discussões teóricas complexas.

O ambiente de dados

Antes de falar sobre o trabalho realizado por cada profissional e sua especialidade, vamos entender como é o ambiente de dados em uma corporação, ainda que em termos gerais e sem muito aprofundamento. Essa é uma base importante para compreender o que fazem esses profissionais que, no fundo, colaboram para um grande objetivo comum: gerar valor para a organização utilizando dados.

Para facilitar o entendimento deste artigo, vamos compreender como “ambiente de dados” todos os recursos e softwares necessários para os processos de captação, armazenamento e consumo dos dados. Em outras palavras, tudo que é necessário para que exista este ambiente de dados. Desta forma, o ambiente de dados é composto, basicamente, das seguintes partes:

  1. Mecanismo de captação e ingestão dos dados: É o mecanismo que recebe os dados das áreas operacionais, também chamadas de transacionais, da corporação (sistemas OLTP). Estes dados são considerados “dados históricos”, pois contam a história das transações/operações que já aconteceram no mundo real e foram registrados pelos sistemas de informações da organização. Os dados, contudo, não estão limitados aos sistemas transacionais da organização, eles também podem ser captados de muitas outras fontes, tais como sistemas de parceiros, de fornecedores, da internet e diversas outras;
  2. Base de Big Data: Ela serve para o armazenamento dos dados. Uma base de Big Data é caracterizada principalmente por ter grande volume, crescimento rápido, grande variedade de dados (provenientes de várias fontes) e dados consistentes e confiáveis.
  3. Mecanismos de ETLs: Todo ambiente de dados conta com mecanismos de extração, transformação e carga de dados (ETLs). Eles são responsáveis por garantir a consistência e confiabilidade dos dados, realizando todos os tratamentos necessários. Os dados em uma base Big Data são separados em camadas e são os ETLs que as constroem e mantém. Geralmente há três camadas, onde a primeira armazena dados brutos, a segunda os dados tratados e a terceira é destinada a dados especializados, com objetivo de serem usados em trabalhos com IA e trabalhos analíticos mais aprimorados.
  4. Ferramentas para visualização de dados: Os primeiros produtos de dados podem ser obtidos por meio de ferramentas para visualização de dados, tais como o AWS Quicksight, Apache Superset, Power BI, Tableau, entre outros. Porém, esta visualização não se refere aos dados brutos, tais como foram recebidos pelo mecanismo de ingestão. A visualização do dado bruto pode ser feita na base de origem (transacional/operacional). A visualização que falamos aqui é aquela produzida a partir de dados tratados e agregados (também chamados de sumarizados). Ela ocorre após todo tratamento, transformação e enriquecimento feito nas camadas superiores da base Big Data pelos ETLs. O resultado são painéis analíticos, geralmente voltados para o público executivos com objetivo de auxiliar nas tomadas de decisões que são estratégicas para a corporação.
  5. Machine Learning: Em organizações mais maduras na utilização de dados, temos também a aplicação de modelos de ML (Machine Learning), ou modelos de aprendizado de máquina, que são tipos de Inteligências Artificiais. Os modelos de ML utilizam os dados da base Big Data que estão nas “camadas superiores” para aprenderem como fazer o seu trabalho. Para que isto seja eficiente, é necessário que estes dados tenham muita qualidade e sejam confiáveis.

O Engenheiro de Dados

Agora que falamos, em linhas gerais, como é um ambiente de dados de uma corporação, vamos entender como é o trabalho dos profissionais de dados, a começar pelo Engenheiro de Dados (Data Engeneer).

O Engenheiro de dados dedica-se a construção e manutenção das seguintes partes do ambiente que citamos anteriormente:

  1. O mecanismo de captação e ingestão dos dados;
  2. A base de Big Data;
  3. Os mecanismos de ETLs.

É responsabilidade do Engenheiro de Dados construir e manter estes elementos, mas também monitorá-los e atuar de forma pró-ativa para que tudo esteja funcionando perfeitamente, ou seja, com saúde total.

Isto significa que o Engenheiro de Dados precisa fazer coisas como medir o crescimento do ambiente e assegurar que ele continuará funcionando mesmo com seu rápido crescimento, garantindo sua escalabilidade, confiabilidade e disponibilidade.

O Engenheiro de Dados precisa também solucionar os problemas do dia a dia, tais como resolver erros diversos que ocorrem na plataforma, problemas na rede ou nos serviços de cloud. Além disso, há os problemas originados pelos produtores dos dados, que são aqueles que enviam dados a partir da fonte original. Falta de aderência aos critérios de qualidade, inconformidade com o modelo/esquema de dados, dados faltantes e dados com erro são alguns exemplos deste tipo de problema.

Cabe também ao Engenheiro de Dados criar soluções para novas necessidades que surgem constantemente, tanto de democratização de dados, quanto de recuperação de falhas ou de qualquer outra natureza.

Para cumprir seu trabalho, o Engenheiro de Dados estuda tecnologias como:

  • Cloud: O Engenheiro de Dados precisa ser um especialista em alguma tecnologia de Cloud Cumputing, pois ele precisará criar soluções em nuvem com bom desempenho. Para isso, deverá utilizar os melhores recursos disponíveis no ambiente de nuvem que a corporação em que trabalha utiliza;
  • Python: Ele precisa saber programar em Python, que é a principal linguagem de programação usada na área de dados. Além disso, precisa conhecer a fundo os principais frameworks para trabalhar com dados, tais como Pandas, Spark, entre outros;
  • Big Data: Precisa ser um especialista em tecnologia de Big Data, pois vai precisar construir e manter grandes bases de dados funcionando com confiabilidade e ótimo desempenho;
  • ETLs: Precisa também conhecer a fundo como realizar trabalhos de Extração, Transformação e Carga de dados, pois terá a missão de construir ETLs para criar e manter as camadas da base de Big Data.

A seguir uma ilustração, retirada da internet, que demonstra o que seria um roadmap completo para a carreira de Engenheiro de Dados:

Data Engineering Roadmap
Data Engineering Roadmap

O Analista de Dados

Este profissional está mais próximo do negócio da corporação (business). Seu objetivo e gerar insights relevantes para o negócio e criar ferramentas que auxiliam executivos nas tomadas de decisões. Essas ferramentas são “analíticas” e podem ser, por exemplo, estudos, relatórios, painéis e dashboards que ofereçam “visões de dados” capazes de auxiliar o público de executivos da corporação.

O trabalho do Analista de Dados inclui, principalmente, as seguintes habilidades (skills) e atribuições:

  • Conhecer bem o negócio da corporação e da área de negócio específica onde atua;
  • Ter excelentes senso crítico e capacidade analítica, pois vai precisar extrair informações relevantes e, muitas vezes, não óbvias da massa de dados histórica (base OLAP);
  • Ter bom conhecimento sobre estatística, principalmente estatística descritiva;
  • Conhecer muito bem os tipos de análises de dados e ser capaz de aplicar cada uma no contexto certo;
  • Conhecer bastante sobre story tellings, métricas, gráficos e dashboards, para construir painéis analíticos claros, objetivos e capazes de agregar valor aos processos de tomadas de decisões;
  • Comunicar-se muito bem, de forma clara e eficiente, para ser capaz de apoiar os especialistas do negócio (stakeholders) e executivos.

Entre os conhecimentos técnicos necessários a este profissional, estão as seguintes ferramentas e tecnologias:

  • Domínio sobre a linguagem SQL, que é a linguagem padrão de consultas à diversos tipos de bases de dados, relacionais e não relacionais;
  • Conhecimento sobre bancos de dados em geral, tanto relacionais quanto não relacionais;
  • Saber programar em Python é muito importante, pois permite fazer tratamento de dados e preparar bases de dados que não estejam prontas para o consumo. Além disso, o Python permite a geração de relatórios completos, com alto nível de customização e com gráficos ricos — o que é ótimo para gerar estudos e relatórios inéditos;
  • Domínio de ferramentas que geram painéis e dashboards analíticos, tais como Power BI, Apache Superset, AWS Quicksight, Qlik Sense, Tableau, entre outras.

A seguir uma ilustração, retirada da internet, que demonstra o que seria um roadmap completo para a carreira de Analista de Dados:

Data Engineering Roadmap
Data Engineering Roadmap

O Cientista de Dados

Este é o profissional responsável por utilizar a massa de dados com o objetivo principal de aplicá-los em modelos de Machine Learning (ML). A sigla refere-se ao aprendizado de máquina e os modelos de ML são tipos de Inteligência Artificial (IA).

Embora os termos se confundam, IA e ML não têm o mesmo significado. O termo IA é mais amplo e não está restrito à algoritmos computacionais que utilizam modelos matemáticos para atingirem seus objetivos, que é o caso do termo ML.

O Cientista de Dados utiliza a base de Big Data, embora não esteja restrito a esta fonte, para treinar modelos de ML. Depois de treinados, ou seja, de “aprenderem com os dados”, estes modelos de ML tornam-se capazes de resolver novos problemas, com dados que não estavam na base original. Dessa forma, o modelo consegue abstrair o problema e aplicar a solução aprendida à novos dados (input).

Os modelos de ML podem fazer coisas como criar imagens, criar textos, classificar elementos, fazer previsões sobre o futuro e muitas outras tarefas surpreendentes. Existem também modelos que não precisam aprender com os dados, porém eles usam os dados para realizar o seu trabalho. Um exemplo disso são os modelos destinados à tarefas de clusterização, onde o objetivo é, basicamente, agrupar dados para estudar elementos com características semelhantes. Uma aplicação prática disso é, por exemplo, uma análise de perfis de clientes para direcionar uma campanha de marketing.

O Cientista de Dados precisa ter os seguintes conhecimentos:

  • Estatística, principalmente estatística descritiva, que permitirá analisar os dados na fase de estudo dos mesmos (análise exploratória);
  • Conhecimento aprofundado de SQL e bancos de dados em geral, relacionais e não relacionais, que vai auxiliar nas tarefas de captação de dados;
  • Elevada capacidade analítica e de comunicação;
  • Técnicas de coleta de dados, para obtê-los de fontes diversas e em diferentes formatos;
  • Técnicas de tratamento de dados, para ser capaz de preparar os dados para os modelos de ML;
  • Tipos de modelos de ML, tipos de problemas aplicáveis a modelos de ML e quais modelos são melhores para cada tipo de problema;
  • Técnicas para medir e avaliar o desempenho dos modelos de ML, de forma que seja capaz de compará-los e trabalhar os “hiperparâmetros” para obter os melhores resultados possíveis.

O cientista precisa também conhecer as seguintes tecnologias:

  • Linguagens de programação Python (mais usada) e R;
  • Jupyter Notebook e/ou ferramentas com suporte a Notebooks em geral;
  • IDEs de desenvolvimento, tais como VS Code, IntelliJ e PyCharm;
  • Bibliotecas para manipulação e tratamento de dados, tais como Pandas, Numpy e Spark;
  • Bibliotecas para modelos clássicos de ML, tais como Sklearn (Scikit-Learn);
  • Bibliotecas para modelos Deep Learning, tais como PyTorch e TensorFlow;
  • Bibliotecas para visualização de dados, tais como Matplotlib e Seaborn;
  • Bibliotecas para diversas outras tarefas, tais como normalização de dados, redução de dimensionalidade, tratamento e higienização de dados, PNL (Processamento de Linguagem Natural), Data Wrangling, entre outros.

A seguir uma ilustração, retirada da internet, que demonstra o que seria um roadmap completo para a carreira de Cientista de Dados:

Data Scientis Roadmap
Data Scientis Roadmap

Conclusão

Estas não são todas as especialidades dos profissionais de dados e também não procurei apresentar todos os skills (habilidades) necessários a cada um destes profissionais. Porém, tenho certeza que fiz um bom resumo e atingi o objetivo de mostrar as diferenças entre eles.

Tanto o Analista de Dados quanto o Cientista de Dados utilizam os dados da base de Big Data. Porém, eles não estão restritos a esta base. Há muitas vezes em que se faz necessária a busca de dados complementares em outras fontes.

Todos os profissionais de dados precisam estar atentos à leis como a LGPD (Lei Geral de Proteção de Dados). Porém, em geral, estes profissionais não estão muito interessados no dado em seu menor “nível de granularidade”, ou seja, tal como ele ocorre no dia a dia em todos os detalhes. O trabalho de Data Analytics é feito com dados sumarizados e o trabalho de Data Science é feito através de modelos de IA, para os quais não há distinção do significado dos dados e, além disso, os dados são usados para treino e testes dos modelos, não ficam armazenado com o modelo no final.

Por fim, vale ressaltar que estes profissionais possuem habilidades bastante diferentes, embora todos trabalhem com dados. É importantes que tenham uma visão do todo, porém precisam se aprofundar em tecnologias um pouco diferentes e a formação de cada um segue por caminhos distintos. Como referência final, deixo a ilustração abaixo, retirada da internet, que resume bem as principais diferenças:

Data Professions Mean Differences
Data Professions Mean Differences

Espero ter contribuído para um melhor entendimento. Deixe nos comentários as suas dúvidas e observações.


Referências: Imagens retiradas da internet através do Google.

Leave a Reply

Your email address will not be published. Required fields are marked *

Search

Popular Posts

  • Como evitar erros de timeout devido queries pesadas no Athena
    Como evitar erros de timeout devido queries pesadas no Athena

    Aqui está uma solução simples e fácil de implementar, mas poderosa para evitar erros na sua solução sistêmica ou agêntica e ainda prevenir surpresas terríveis na sua fatura AWS no fim do mês.

  • Comparação por Similaridade Semântica de Textos
    Comparação por Similaridade Semântica de Textos

    Data Science | Generative AI | Agentic AI | IA | ML | Linkedin 👉 Introdução Este artigo apresenta alguns métodos de comparação de textos a nível semântico, ou seja, o quão semelhantes são os textos comparados com relação ao seu significado. O artigo começa com a apresentação de conceitos básicos e tópicos relevantes sobre o…

  • Você conhece os profissionais de dados?
    Você conhece os profissionais de dados?

    Muito se fala sobre a área de dados, mas as diferenças entre os profissionais que atuam na área ainda é um mistério para muitos. Neste artigo, você passará a entender melhor o que fazem estes profissionais.

Archives

Translate »