top of page
All Posts


O Propósito Real da Landing Zone: Desacoplamento e Segurança
Olá, aqui é o Michel Santana. Se você já sentiu o frio na barriga de ver um pipeline quebrar porque o sistema de origem mudou o formato de um arquivo ou porque um banco de dados transacional "travou" durante uma extração pesada, este artigo é para você. Hoje, quero mergulhar no que considero ser o "porto seguro" de qualquer arquitetura de dados moderna: a Landing Zone . Quando comecei a estudar arquiteturas de dados, percebi que muitos problemas de corrupção de dados nas cama
Michel Souza Santana
há 1 dia8 min de leitura


O Ciclo de Vida da Engenharia de Dados: Do Caos à Geração de Valor
Se você acompanha minha jornada no LinkedIn ou aqui no blog, sabe que sou um defensor ferrenho de que ferramentas são apenas meios para um fim. Aprender Databricks, dominar o Google Cloud Platform (GCP) ou escrever scripts complexos em PySpark é essencial, mas se não entendermos o porquê e o como os dados fluem dentro de uma organização, seremos apenas operadores de ferramentas, e não engenheiros de dados completos. Recentemente, revisitei um material que considero a "bíbli
Michel Souza Santana
29 de dez. de 20256 min de leitura


A Hierarquia de Necessidades de Dados: Por que sua IA vai falhar sem uma Engenharia de Dados sólida
Recentemente, revisando alguns materiais fundamentais da nossa área, me deparei com uma página que considero a "bússola moral" de qualquer projeto de dados sério. A imagem, extraída do excelente livro Fundamentos de Engenharia de Dados (de Joe Reis e Matt Housley), apresenta a famosa "Hierarquia de Necessidades da Ciência de Dados", originalmente proposta por Monica Rogati. Sempre que vejo essa pirâmide, sou transportado para diversas reuniões de kick-off de projetos em que
Michel Souza Santana
11 de dez. de 20256 min de leitura


Observabilidade em Ação: Monitorando Nulos e Frequência de Cargas para Blindar seus Pipelines (Estudo Prático)
Quando a gente fala de Engenharia de Dados , o "mover bits" é só uma parte da história. A outra, e talvez a mais crítica, é garantir que esses bits não sejam apenas transportados, mas que cheguem com qualidade e no tempo certo . E, honestamente, depois de trabalhar em diversos projetos, aprendi que a falha em um pipeline de dados tem um custo altíssimo, que vai desde relatórios incorretos até prejuízos reais ou decisões regulatórias erradas. Foi exatamente com esse mindset
Michel Souza Santana
15 de nov. de 20255 min de leitura


Data Warehouse, Data Lake e Data Lake Hause
Quando comecei minha jornada na Engenharia de Dados, uma das primeiras e maiores confusões era entender a diferença prática entre Data Warehouse (DW) e Data Lake . E, para adicionar uma camada de complexidade e de evolução a esse cenário, hoje temos o Data Lakehouse , que se tornou um pilar na minha rotina de trabalho. Neste artigo, vou descomplicar essa evolução. Vou mostrar por que essa distinção importa e como a arquitetura que você escolhe pode ser o divisor de águas ent
Michel Souza Santana
13 de nov. de 20254 min de leitura


Dados Operacionais vs. Dados Analíticos
Fala, pessoal! Aqui é o Michel Santana . Quando a gente começa a mergulhar de cabeça no universo da Engenharia de Dados, uma das primeiras coisas que precisamos internalizar é que nem todo dado é criado igual . Parece óbvio, eu sei, mas a forma como gerenciamos, armazenamos e processamos informações para rodar um sistema é drasticamente diferente da forma como as tratamos para gerar insights estratégicos. É aí que entra a distinção crucial entre Dados Operacionais e Dados A
Michel Souza Santana
12 de nov. de 20254 min de leitura


Coletar, Limpar, Transformar e Testar Dado
O primeiro mergulho na lama dos dados Quando comecei a trabalhar com engenharia de dados, achei que o grande desafio seria fazer os dados fluírem — puxar de APIs, extrair de planilhas, salvar no Data Lake. Mas com o tempo percebi que o verdadeiro desafio não era mover os dados… era confiar neles . De nada adianta ter uma arquitetura em nuvem robusta, com pipelines automatizados, se os dados que chegam ao analista estão sujos, incompletos ou distorcidos. É como construir uma
Michel Souza Santana
4 de nov. de 20254 min de leitura


Copiar Dados do SharePoint com Azure Data Factory
Quando falamos em fontes de dados em um ambiente corporativo, é quase impossível não esbarrar no Microsoft SharePoint. Seja para listas de controle, planilhas de Excel que o time de Finanças atualiza, ou arquivos CSV gerados por algum processo departamental, o SharePoint funciona muitas vezes como um "data mart" semi-estruturado. Como engenheiros de dados, nosso trabalho é trazer esses dados para o nosso ambiente de processamento (seja um Data Lake, um Data Warehouse ou um La
Michel Souza Santana
22 de out. de 20256 min de leitura


Resolvendo OOM (Out of Memory) em Pipelines de Dataflow
Pare de usar o Dataflow para transportar terabytes de dados. Use-o para orquestrar milhares de tarefas e evite o temido Out of Memory. Olá, pessoal. Sou Michel Santana. Como Engenheiro de Dados, um dos problemas mais frustrantes (e caros) que vejo em projetos é o famoso Out of Memory (OOM) em pipelines de Dataflow. Você já passou por isso? Você configura um pipeline para processar um grande volume de dados talvez alguns terabytes de logs, ele começa a rodar, o gráfico de exec
Michel Souza Santana
21 de out. de 20256 min de leitura


Construindo um Pipeline de Dados Moderno no Databricks!
Olá, comunidade de dados! Nos últimos anos, a engenharia de dados evoluiu de simples scripts de extração para ecossistemas complexos que exigem governança, escalabilidade e, acima de tudo, automação. Processos manuais não são apenas ineficientes; eles são um risco para a consistência e a agilidade que o negócio moderno exige. Estou animado para compartilhar um projeto que finalizei recentemente, onde construí um sistema de engenharia de dados completo, aplicando as práticas m
Michel Souza Santana
15 de out. de 20254 min de leitura


Fundamentos de um Ecossistema de Dados Confiável: Os Pilares Essenciais
No universo da tecnologia, onde dados são o novo petróleo, garantir sua qualidade e confiabilidade não é mais um diferencial, mas uma necessidade fundamental para a sobrevivência e o crescimento de qualquer negócio. Decisões estratégicas, modelos de machine learning e a experiência do cliente dependem diretamente da saúde dos dados que fluem diariamente por nossos sistemas. Mas como podemos construir um ecossistema de dados que seja verdadeiramente confiável? A resposta não e
Michel Souza Santana
15 de out. de 20254 min de leitura


Qualidade de Dados: Por Que Sua Empresa Não Pode Mais Ignorar Esse Assunto
Na era da transformação digital, falamos muito sobre o poder dos dados. Celebramos a ascensão da cultura data-driven , investimos em inteligência artificial e construímos dashboards cada vez mais sofisticados. Mas, e se a base que sustenta tudo isso — o próprio dado — for instável? Imagine construir um arranha-céu sobre uma fundação de areia. Não importa quão moderna seja a arquitetura ou quão caros sejam os materiais; a estrutura está fadada ao fracasso. No mundo dos negócio
Michel Souza Santana
13 de out. de 20254 min de leitura


Google Cloud Storage: O Guia Definitivo para Armazenamento de Dados na Nuvem
No universo da tecnologia e engenharia de dados, a capacidade de armazenar, gerenciar e acessar grandes volumes de informação de forma...
Michel Souza Santana
9 de out. de 20256 min de leitura


Do Zero à Automação Segura: Instalando o n8n no Google Cloud com Docker e Nginx
Manual Passo a Passo: https://github.com/michellsspy/n8n_no_GCP.git N8N Código Json: https://github.com/michellsspy/n8n_no_GCP.git Olá,...
Michel Souza Santana
6 de out. de 20257 min de leitura


Comecei a Entender os Databricks Bundles
Recentemente, em um projeto na empresa onde trabalho, me deparei com uma abordagem peculiar para a gestão e deploy de artefatos no...
Michel Souza Santana
3 de out. de 20254 min de leitura


JSONs Aninhados com PySpark no Databricks: Da API ao DataFrame
Olá, comunidade de dados! Quem trabalha com engenharia e análise de dados sabe que uma das tarefas mais comuns é a integração com fontes...
Michel Souza Santana
1 de out. de 20255 min de leitura


Views no Databricks: Stored, Temporary e Global Temporary Views
Na engenharia e análise de dados com Databricks, a eficiência e a organização do código são fundamentais. Entre as diversas ferramentas...
Michel Souza Santana
1 de out. de 20255 min de leitura


Databricks: Desvendando as Tabelas MANAGED e EXTERNAL
No universo da engenharia e análise de dados com Databricks, uma das decisões fundamentais ao estruturar seu Lakehouse é a escolha do...
Michel Souza Santana
1 de out. de 20255 min de leitura


Desmistificando o Google Compute Engine: O Coração da Sua Infraestrutura na Nuvem
Olá, pessoal! Aqui é Michell Santana. Em nossas conversas sobre tecnologia e infraestrutura de TI, um tema que sempre surge é a migração...
Michel Souza Santana
30 de set. de 20254 min de leitura


Gerenciar Acessos e Proteger Seus Recursos na Nuvem (GCP)
Na jornada para a nuvem, um dos pilares mais críticos para qualquer organização é a segurança. E quando falamos de Google Cloud Platform...
Michel Souza Santana
30 de set. de 20255 min de leitura
bottom of page
