top of page
All Posts


Observabilidade em Ação: Monitorando Nulos e Frequência de Cargas para Blindar seus Pipelines (Estudo Prático)
Quando a gente fala de Engenharia de Dados , o "mover bits" é só uma parte da história. A outra, e talvez a mais crítica, é garantir que esses bits não sejam apenas transportados, mas que cheguem com qualidade e no tempo certo . E, honestamente, depois de trabalhar em diversos projetos, aprendi que a falha em um pipeline de dados tem um custo altíssimo, que vai desde relatórios incorretos até prejuízos reais ou decisões regulatórias erradas. Foi exatamente com esse mindset
Michel Souza Santana
15 de nov.5 min de leitura


Data Warehouse, Data Lake e Data Lake Hause
Quando comecei minha jornada na Engenharia de Dados, uma das primeiras e maiores confusões era entender a diferença prática entre Data Warehouse (DW) e Data Lake . E, para adicionar uma camada de complexidade e de evolução a esse cenário, hoje temos o Data Lakehouse , que se tornou um pilar na minha rotina de trabalho. Neste artigo, vou descomplicar essa evolução. Vou mostrar por que essa distinção importa e como a arquitetura que você escolhe pode ser o divisor de águas ent
Michel Souza Santana
13 de nov.4 min de leitura


Dados Operacionais vs. Dados Analíticos
Fala, pessoal! Aqui é o Michel Santana . Quando a gente começa a mergulhar de cabeça no universo da Engenharia de Dados, uma das primeiras coisas que precisamos internalizar é que nem todo dado é criado igual . Parece óbvio, eu sei, mas a forma como gerenciamos, armazenamos e processamos informações para rodar um sistema é drasticamente diferente da forma como as tratamos para gerar insights estratégicos. É aí que entra a distinção crucial entre Dados Operacionais e Dados A
Michel Souza Santana
12 de nov.4 min de leitura


Coletar, Limpar, Transformar e Testar Dado
O primeiro mergulho na lama dos dados Quando comecei a trabalhar com engenharia de dados, achei que o grande desafio seria fazer os dados fluírem — puxar de APIs, extrair de planilhas, salvar no Data Lake. Mas com o tempo percebi que o verdadeiro desafio não era mover os dados… era confiar neles . De nada adianta ter uma arquitetura em nuvem robusta, com pipelines automatizados, se os dados que chegam ao analista estão sujos, incompletos ou distorcidos. É como construir uma
Michel Souza Santana
4 de nov.4 min de leitura


Copiar Dados do SharePoint com Azure Data Factory
Quando falamos em fontes de dados em um ambiente corporativo, é quase impossível não esbarrar no Microsoft SharePoint. Seja para listas de controle, planilhas de Excel que o time de Finanças atualiza, ou arquivos CSV gerados por algum processo departamental, o SharePoint funciona muitas vezes como um "data mart" semi-estruturado. Como engenheiros de dados, nosso trabalho é trazer esses dados para o nosso ambiente de processamento (seja um Data Lake, um Data Warehouse ou um La
Michel Souza Santana
22 de out.6 min de leitura


Resolvendo OOM (Out of Memory) em Pipelines de Dataflow
Pare de usar o Dataflow para transportar terabytes de dados. Use-o para orquestrar milhares de tarefas e evite o temido Out of Memory. Olá, pessoal. Sou Michel Santana. Como Engenheiro de Dados, um dos problemas mais frustrantes (e caros) que vejo em projetos é o famoso Out of Memory (OOM) em pipelines de Dataflow. Você já passou por isso? Você configura um pipeline para processar um grande volume de dados talvez alguns terabytes de logs, ele começa a rodar, o gráfico de exec
Michel Souza Santana
21 de out.6 min de leitura


Construindo um Pipeline de Dados Moderno no Databricks!
Olá, comunidade de dados! Nos últimos anos, a engenharia de dados evoluiu de simples scripts de extração para ecossistemas complexos que exigem governança, escalabilidade e, acima de tudo, automação. Processos manuais não são apenas ineficientes; eles são um risco para a consistência e a agilidade que o negócio moderno exige. Estou animado para compartilhar um projeto que finalizei recentemente, onde construí um sistema de engenharia de dados completo, aplicando as práticas m
Michel Souza Santana
15 de out.4 min de leitura


Fundamentos de um Ecossistema de Dados Confiável: Os Pilares Essenciais
No universo da tecnologia, onde dados são o novo petróleo, garantir sua qualidade e confiabilidade não é mais um diferencial, mas uma necessidade fundamental para a sobrevivência e o crescimento de qualquer negócio. Decisões estratégicas, modelos de machine learning e a experiência do cliente dependem diretamente da saúde dos dados que fluem diariamente por nossos sistemas. Mas como podemos construir um ecossistema de dados que seja verdadeiramente confiável? A resposta não e
Michel Souza Santana
15 de out.4 min de leitura


Qualidade de Dados: Por Que Sua Empresa Não Pode Mais Ignorar Esse Assunto
Na era da transformação digital, falamos muito sobre o poder dos dados. Celebramos a ascensão da cultura data-driven , investimos em inteligência artificial e construímos dashboards cada vez mais sofisticados. Mas, e se a base que sustenta tudo isso — o próprio dado — for instável? Imagine construir um arranha-céu sobre uma fundação de areia. Não importa quão moderna seja a arquitetura ou quão caros sejam os materiais; a estrutura está fadada ao fracasso. No mundo dos negócio
Michel Souza Santana
13 de out.4 min de leitura


Google Cloud Storage: O Guia Definitivo para Armazenamento de Dados na Nuvem
No universo da tecnologia e engenharia de dados, a capacidade de armazenar, gerenciar e acessar grandes volumes de informação de forma...
Michel Souza Santana
9 de out.6 min de leitura


Do Zero à Automação Segura: Instalando o n8n no Google Cloud com Docker e Nginx
Manual Passo a Passo: https://github.com/michellsspy/n8n_no_GCP.git N8N Código Json: https://github.com/michellsspy/n8n_no_GCP.git Olá,...
Michel Souza Santana
6 de out.7 min de leitura


Comecei a Entender os Databricks Bundles
Recentemente, em um projeto na empresa onde trabalho, me deparei com uma abordagem peculiar para a gestão e deploy de artefatos no...
Michel Souza Santana
3 de out.4 min de leitura


JSONs Aninhados com PySpark no Databricks: Da API ao DataFrame
Olá, comunidade de dados! Quem trabalha com engenharia e análise de dados sabe que uma das tarefas mais comuns é a integração com fontes...
Michel Souza Santana
1 de out.5 min de leitura


Views no Databricks: Stored, Temporary e Global Temporary Views
Na engenharia e análise de dados com Databricks, a eficiência e a organização do código são fundamentais. Entre as diversas ferramentas...
Michel Souza Santana
1 de out.5 min de leitura


Databricks: Desvendando as Tabelas MANAGED e EXTERNAL
No universo da engenharia e análise de dados com Databricks, uma das decisões fundamentais ao estruturar seu Lakehouse é a escolha do...
Michel Souza Santana
1 de out.5 min de leitura


Desmistificando o Google Compute Engine: O Coração da Sua Infraestrutura na Nuvem
Olá, pessoal! Aqui é Michell Santana. Em nossas conversas sobre tecnologia e infraestrutura de TI, um tema que sempre surge é a migração...
Michel Souza Santana
30 de set.4 min de leitura


Gerenciar Acessos e Proteger Seus Recursos na Nuvem (GCP)
Na jornada para a nuvem, um dos pilares mais críticos para qualquer organização é a segurança. E quando falamos de Google Cloud Platform...
Michel Souza Santana
30 de set.5 min de leitura


Desvendando a Hierarquia do Google Cloud Platform
No universo do Google Cloud Platform (GCP), a forma como você estrutura e organiza seus ativos digitais não é apenas uma questão de...
Michel Souza Santana
30 de set.5 min de leitura


Apache Beam e Dataflow: A Dupla Dinâmica para Pipelines de Dados Escaláveis na GCP
A combinação de Apache Beam e Google Dataflow é, sem dúvida, um dos pilares para a construção de soluções de dados modernas e eficientes...
Michel Souza Santana
30 de set.4 min de leitura


Classic ou Flex Template? Descomplicando a Escolha para Orquestrar suas Pipelines
Olá, pessoal! Aqui é Michell Santana. No universo do Google Cloud, o Dataflow é uma ferramenta indispensável para o processamento de...
Michel Souza Santana
30 de set.4 min de leitura
bottom of page
