top of page

MSS
Technologies

Home
Blog
Linkedin
Member Page

All Posts
Google Cloud Platform
Databricks

All Posts

O Propósito Real da Landing Zone: Desacoplamento e Segurança

O Propósito Real da Landing Zone: Desacoplamento e Segurança

O Propósito Real da Landing Zone: Desacoplamento e Segurança

Olá, aqui é o Michel Santana. Se você já sentiu o frio na barriga de ver um pipeline quebrar porque o sistema de origem mudou o formato de um arquivo ou porque um banco de dados transacional "travou" durante uma extração pesada, este artigo é para você. Hoje, quero mergulhar no que considero ser o "porto seguro" de qualquer arquitetura de dados moderna: a Landing Zone . Quando comecei a estudar arquiteturas de dados, percebi que muitos problemas de corrupção de dados nas cama

Michel Souza Santana

há 1 dia8 min de leitura

O Ciclo de Vida da Engenharia de Dados: Do Caos à Geração de Valor

O Ciclo de Vida da Engenharia de Dados: Do Caos à Geração de Valor

O Ciclo de Vida da Engenharia de Dados: Do Caos à Geração de Valor

Se você acompanha minha jornada no LinkedIn ou aqui no blog, sabe que sou um defensor ferrenho de que ferramentas são apenas meios para um fim. Aprender Databricks, dominar o Google Cloud Platform (GCP) ou escrever scripts complexos em PySpark é essencial, mas se não entendermos o porquê e o como os dados fluem dentro de uma organização, seremos apenas operadores de ferramentas, e não engenheiros de dados completos. Recentemente, revisitei um material que considero a "bíbli

Michel Souza Santana

29 de dez. de 20256 min de leitura

A Hierarquia de Necessidades de Dados: Por que sua IA vai falhar sem uma Engenharia de Dados sólida

A Hierarquia de Necessidades de Dados: Por que sua IA vai falhar sem uma Engenharia de Dados sólida

A Hierarquia de Necessidades de Dados: Por que sua IA vai falhar sem uma Engenharia de Dados sólida

Recentemente, revisando alguns materiais fundamentais da nossa área, me deparei com uma página que considero a "bússola moral" de qualquer projeto de dados sério. A imagem, extraída do excelente livro Fundamentos de Engenharia de Dados (de Joe Reis e Matt Housley), apresenta a famosa "Hierarquia de Necessidades da Ciência de Dados", originalmente proposta por Monica Rogati. Sempre que vejo essa pirâmide, sou transportado para diversas reuniões de kick-off de projetos em que

Michel Souza Santana

11 de dez. de 20256 min de leitura

Observabilidade em Ação: Monitorando Nulos e Frequência de Cargas para Blindar seus Pipelines (Estudo Prático)

Observabilidade em Ação: Monitorando Nulos e Frequência de Cargas para Blindar seus Pipelines (Estudo Prático)

Observabilidade em Ação: Monitorando Nulos e Frequência de Cargas para Blindar seus Pipelines (Estudo Prático)

Quando a gente fala de Engenharia de Dados , o "mover bits" é só uma parte da história. A outra, e talvez a mais crítica, é garantir que esses bits não sejam apenas transportados, mas que cheguem com qualidade e no tempo certo . E, honestamente, depois de trabalhar em diversos projetos, aprendi que a falha em um pipeline de dados tem um custo altíssimo, que vai desde relatórios incorretos até prejuízos reais ou decisões regulatórias erradas. Foi exatamente com esse mindset

Michel Souza Santana

15 de nov. de 20255 min de leitura

Data Warehouse, Data Lake e Data Lake Hause

Data Warehouse, Data Lake e Data Lake Hause

Data Warehouse, Data Lake e Data Lake Hause

Quando comecei minha jornada na Engenharia de Dados, uma das primeiras e maiores confusões era entender a diferença prática entre Data Warehouse (DW) e Data Lake . E, para adicionar uma camada de complexidade e de evolução a esse cenário, hoje temos o Data Lakehouse , que se tornou um pilar na minha rotina de trabalho. Neste artigo, vou descomplicar essa evolução. Vou mostrar por que essa distinção importa e como a arquitetura que você escolhe pode ser o divisor de águas ent

Michel Souza Santana

13 de nov. de 20254 min de leitura

Dados Operacionais vs. Dados Analíticos

Dados Operacionais vs. Dados Analíticos

Dados Operacionais vs. Dados Analíticos

Fala, pessoal! Aqui é o Michel Santana . Quando a gente começa a mergulhar de cabeça no universo da Engenharia de Dados, uma das primeiras coisas que precisamos internalizar é que nem todo dado é criado igual . Parece óbvio, eu sei, mas a forma como gerenciamos, armazenamos e processamos informações para rodar um sistema é drasticamente diferente da forma como as tratamos para gerar insights estratégicos. É aí que entra a distinção crucial entre Dados Operacionais e Dados A

Michel Souza Santana

12 de nov. de 20254 min de leitura

Coletar, Limpar, Transformar e Testar Dado

Coletar, Limpar, Transformar e Testar Dado

Coletar, Limpar, Transformar e Testar Dado

O primeiro mergulho na lama dos dados Quando comecei a trabalhar com engenharia de dados, achei que o grande desafio seria fazer os dados fluírem — puxar de APIs, extrair de planilhas, salvar no Data Lake. Mas com o tempo percebi que o verdadeiro desafio não era mover os dados… era confiar neles . De nada adianta ter uma arquitetura em nuvem robusta, com pipelines automatizados, se os dados que chegam ao analista estão sujos, incompletos ou distorcidos. É como construir uma

Michel Souza Santana

4 de nov. de 20254 min de leitura

Copiar Dados do SharePoint com Azure Data Factory

Copiar Dados do SharePoint com Azure Data Factory

Copiar Dados do SharePoint com Azure Data Factory

Quando falamos em fontes de dados em um ambiente corporativo, é quase impossível não esbarrar no Microsoft SharePoint. Seja para listas de controle, planilhas de Excel que o time de Finanças atualiza, ou arquivos CSV gerados por algum processo departamental, o SharePoint funciona muitas vezes como um "data mart" semi-estruturado. Como engenheiros de dados, nosso trabalho é trazer esses dados para o nosso ambiente de processamento (seja um Data Lake, um Data Warehouse ou um La

Michel Souza Santana

22 de out. de 20256 min de leitura

Resolvendo OOM (Out of Memory) em Pipelines de Dataflow

Resolvendo OOM (Out of Memory) em Pipelines de Dataflow

Resolvendo OOM (Out of Memory) em Pipelines de Dataflow

Pare de usar o Dataflow para transportar terabytes de dados. Use-o para orquestrar milhares de tarefas e evite o temido Out of Memory. Olá, pessoal. Sou Michel Santana. Como Engenheiro de Dados, um dos problemas mais frustrantes (e caros) que vejo em projetos é o famoso Out of Memory (OOM) em pipelines de Dataflow. Você já passou por isso? Você configura um pipeline para processar um grande volume de dados talvez alguns terabytes de logs, ele começa a rodar, o gráfico de exec

Michel Souza Santana

21 de out. de 20256 min de leitura

Construindo um Pipeline de Dados Moderno no Databricks!

Construindo um Pipeline de Dados Moderno no Databricks!

Construindo um Pipeline de Dados Moderno no Databricks!

Olá, comunidade de dados! Nos últimos anos, a engenharia de dados evoluiu de simples scripts de extração para ecossistemas complexos que exigem governança, escalabilidade e, acima de tudo, automação. Processos manuais não são apenas ineficientes; eles são um risco para a consistência e a agilidade que o negócio moderno exige. Estou animado para compartilhar um projeto que finalizei recentemente, onde construí um sistema de engenharia de dados completo, aplicando as práticas m

Michel Souza Santana

15 de out. de 20254 min de leitura

Fundamentos de um Ecossistema de Dados Confiável: Os Pilares Essenciais

Fundamentos de um Ecossistema de Dados Confiável: Os Pilares Essenciais

Fundamentos de um Ecossistema de Dados Confiável: Os Pilares Essenciais

No universo da tecnologia, onde dados são o novo petróleo, garantir sua qualidade e confiabilidade não é mais um diferencial, mas uma necessidade fundamental para a sobrevivência e o crescimento de qualquer negócio. Decisões estratégicas, modelos de machine learning e a experiência do cliente dependem diretamente da saúde dos dados que fluem diariamente por nossos sistemas. Mas como podemos construir um ecossistema de dados que seja verdadeiramente confiável? A resposta não e

Michel Souza Santana

15 de out. de 20254 min de leitura

Qualidade de Dados: Por Que Sua Empresa Não Pode Mais Ignorar Esse Assunto

Qualidade de Dados: Por Que Sua Empresa Não Pode Mais Ignorar Esse Assunto

Qualidade de Dados: Por Que Sua Empresa Não Pode Mais Ignorar Esse Assunto

Na era da transformação digital, falamos muito sobre o poder dos dados. Celebramos a ascensão da cultura data-driven , investimos em inteligência artificial e construímos dashboards cada vez mais sofisticados. Mas, e se a base que sustenta tudo isso — o próprio dado — for instável? Imagine construir um arranha-céu sobre uma fundação de areia. Não importa quão moderna seja a arquitetura ou quão caros sejam os materiais; a estrutura está fadada ao fracasso. No mundo dos negócio

Michel Souza Santana

13 de out. de 20254 min de leitura

Google Cloud Storage: O Guia Definitivo para Armazenamento de Dados na Nuvem

Google Cloud Storage: O Guia Definitivo para Armazenamento de Dados na Nuvem

Google Cloud Storage: O Guia Definitivo para Armazenamento de Dados na Nuvem

No universo da tecnologia e engenharia de dados, a capacidade de armazenar, gerenciar e acessar grandes volumes de informação de forma...

Michel Souza Santana

9 de out. de 20256 min de leitura

Do Zero à Automação Segura: Instalando o n8n no Google Cloud com Docker e Nginx

Do Zero à Automação Segura: Instalando o n8n no Google Cloud com Docker e Nginx

Do Zero à Automação Segura: Instalando o n8n no Google Cloud com Docker e Nginx

Manual Passo a Passo: https://github.com/michellsspy/n8n_no_GCP.git N8N Código Json: https://github.com/michellsspy/n8n_no_GCP.git Olá,...

Michel Souza Santana

6 de out. de 20257 min de leitura

Comecei a Entender os Databricks Bundles

Comecei a Entender os Databricks Bundles

Comecei a Entender os Databricks Bundles

Recentemente, em um projeto na empresa onde trabalho, me deparei com uma abordagem peculiar para a gestão e deploy de artefatos no...

Michel Souza Santana

3 de out. de 20254 min de leitura

JSONs Aninhados com PySpark no Databricks: Da API ao DataFrame

JSONs Aninhados com PySpark no Databricks: Da API ao DataFrame

JSONs Aninhados com PySpark no Databricks: Da API ao DataFrame

Olá, comunidade de dados! Quem trabalha com engenharia e análise de dados sabe que uma das tarefas mais comuns é a integração com fontes...

Michel Souza Santana

1 de out. de 20255 min de leitura

Views no Databricks: Stored, Temporary e Global Temporary Views

Views no Databricks: Stored, Temporary e Global Temporary Views

Views no Databricks: Stored, Temporary e Global Temporary Views

Na engenharia e análise de dados com Databricks, a eficiência e a organização do código são fundamentais. Entre as diversas ferramentas...

Michel Souza Santana

1 de out. de 20255 min de leitura

Databricks: Desvendando as Tabelas MANAGED e EXTERNAL

Databricks: Desvendando as Tabelas MANAGED e EXTERNAL

Databricks: Desvendando as Tabelas MANAGED e EXTERNAL

No universo da engenharia e análise de dados com Databricks, uma das decisões fundamentais ao estruturar seu Lakehouse é a escolha do...

Michel Souza Santana

1 de out. de 20255 min de leitura

Desmistificando o Google Compute Engine: O Coração da Sua Infraestrutura na Nuvem

Desmistificando o Google Compute Engine: O Coração da Sua Infraestrutura na Nuvem

Desmistificando o Google Compute Engine: O Coração da Sua Infraestrutura na Nuvem

Olá, pessoal! Aqui é Michell Santana. Em nossas conversas sobre tecnologia e infraestrutura de TI, um tema que sempre surge é a migração...

Michel Souza Santana

30 de set. de 20254 min de leitura

Gerenciar Acessos e Proteger Seus Recursos na Nuvem (GCP)

Gerenciar Acessos e Proteger Seus Recursos na Nuvem (GCP)

Gerenciar Acessos e Proteger Seus Recursos na Nuvem (GCP)

Na jornada para a nuvem, um dos pilares mais críticos para qualquer organização é a segurança. E quando falamos de Google Cloud Platform...

Michel Souza Santana

30 de set. de 20255 min de leitura

Home
Blog
Linkedin
Member Page

Entre em Contato

Nome*

Sobrenome*

Telefone*

Endereço

Email*

Sim, quero entrar em contato.

Insira aqui seu texto

michellss.py@gmail.com
Tel: (47) 9 9665-8601
Basil, BR

Terms & Conditions
Privacy Policy
Refund Policy

Accessibility Statement

© 2035 by MSS Technologies. Built on Wix Studio

Home
Blog
Linkedin
Member Page

bottom of page