Backup e Disaster Recovery (BCP/DRP)

Guia completo sobre estratégias de backup, disaster recovery, business continuity planning, regra 3-2-1 e recuperação de desastres.

Backup e Disaster Recovery (BCP/DRP)

Fundamentos de Backup e Recovery

Backup e disaster recovery são componentes críticos de qualquer estratégia de cibersegurança. Com o aumento de ataques ransomware e desastres (naturais ou tecnológicos), ter planos robustos de BCP (Business Continuity Planning) e DRP (Disaster Recovery Planning) é essencial.

RTO e RPO: Conceitos Fundamentais

RTO (Recovery Time Objective)

Definição: Tempo máximo aceitável de indisponibilidade após um desastre

Exemplo: RTO de 4 horas significa que sistemas devem estar restaurados em até 4h

Impacto: Define a urgência e investimento necessário em soluções

RPO (Recovery Point Objective)

Definição: Quantidade máxima de dados que pode ser perdida medida em tempo

Exemplo: RPO de 1 hora significa que backups devem ocorrer a cada hora

Impacto: Define frequência de backups e tecnologias de replicação

Tier de Criticidade:

Tier 1 (Crítico): RTO < 1h, RPO < 15min - Replicação síncrona
Tier 2 (Importante): RTO 4-8h, RPO 1h - Backup incremental frequente
Tier 3 (Normal): RTO 24h, RPO 24h - Backup diário

Regra 3-2-1 de Backup

Estratégia ouro de proteção de dados:

3 Três cópias dos dados: produção + 2 backups
2 Dois tipos de mídia diferentes: disco, fita, cloud
1 Uma cópia off-site: geograficamente separada

Evolução moderna: 3-2-1-1-0
+ 1 cópia imutável (ransomware-proof)
+ 0 erros na restauração (testes regulares)

Tipos de Backup

1. Backup Completo (Full)

Vantagem: Restauração simples e rápida
Desvantagem: Lento, consome muito espaço
Uso: Semanal ou mensal como baseline

2. Backup Incremental

Vantagem: Rápido, economiza espaço
Desvantagem: Restauração requer full + todos os incrementais
Uso: Diário ou horário entre fulls

3. Backup Diferencial

Vantagem: Restauração mais simples que incremental
Desvantagem: Cresce até o próximo full
Uso: Diário quando simplicidade de restore é crítica

4. Snapshot e Replicação

Snapshots: Point-in-time copies, restauração instantânea
Replicação Síncrona: Zero data loss (RPO=0)
Replicação Assíncrona: Geographically distributed

Tecnologias e Soluções

On-Premises

Veeam Backup & Replication: Líder para ambientes virtualizados
Commvault, Veritas NetBackup: Enterprise backup platforms
Acronis Cyber Protect: Backup + antimalware integrado
Dell EMC Data Domain: Deduplicated backup appliances

Cloud-Based

AWS Backup: Centralized backup para serviços AWS
Azure Backup: Integrado com Azure services
Google Cloud Backup: Backups automatizados GCP
Druva, Backblaze B2: Cloud-native backup solutions

Databases

MySQL/PostgreSQL: pg_dump, mysqldump + point-in-time recovery
MongoDB: mongodump, Ops Manager backup
SQL Server: Native backup + Always On Availability Groups
Oracle RMAN: Recovery Manager para ambientes Oracle

Proteção contra Ransomware

Backups à prova de ransomware:

Imutabilidade: Object lock (S3), WORM storage, immutable backups
Air-gapping: Backups offline desconectados da rede
Separação de Credenciais: Backup admins ≠ domain admins
MFA: Autenticação multifator para acesso a backups
Versionamento: Múltiplas versões para recovery pre-infection
Scanning: Antimalware nos backups antes de restauração
Alertas: Detecção de modificações massivas (possível crypto)

Disaster Recovery Planning

DR Site: Secondary datacenter ou cloud region
Failover Automation: Scripts ou orquestração automática
Runbooks: Documentação passo-a-passo de recovery
Priorização: Order de recovery baseado em criticidade
Dependências: Mapa de interdependências entre sistemas
Network Configuration: DNS, VPN, firewall rules para DR
Communication Plan: Stakeholders, clientes, equipe

Testes de Recuperação

Tipos de testes (realizar no mínimo anualmente):

Tabletop Exercise: Discussão teórica do plano sem execução
Restore Testing: Restauração de samples em ambiente isolado
Partial Failover: Failover de sistemas não-críticos
Full DR Test: Failover completo (geralmente em maintenance window)
Chaos Engineering: Falhas injetadas intencionalmente

Importante: Um backup não testado não é um backup. Falhas são descobertas na hora da necessidade se não houver testes regulares.

Melhores Práticas

[OK] Implementar regra 3-2-1-1-0
[OK] Definir RTO/RPO claros por sistema
[OK] Backups imutáveis para proteção ransomware
[OK] Testes trimestrais de restauração
[OK] Monitoramento e alertas de falhas de backup
[OK] Criptografia de backups (at rest e in transit)
[OK] Documentação atualizada de runbooks
[OK] Separação de privilégios (backup admin ≠ domain admin)
[OK] Retenção conforme compliance (LGPD, SOX, etc)
[OK] DR site geograficamente distribuído