Backup e Disaster Recovery (BCP/DRP)

Fundamentos de Backup e Recovery

Backup e disaster recovery são componentes críticos de qualquer estratégia de cibersegurança. Com o aumento de ataques ransomware e desastres (naturais ou tecnológicos), ter planos robustos de BCP (Business Continuity Planning) e DRP (Disaster Recovery Planning) é essencial.

RTO e RPO: Conceitos Fundamentais

RTO (Recovery Time Objective)

Definição: Tempo máximo aceitável de indisponibilidade após um desastre

Exemplo: RTO de 4 horas significa que sistemas devem estar restaurados em até 4h

Impacto: Define a urgência e investimento necessário em soluções

RPO (Recovery Point Objective)

Definição: Quantidade máxima de dados que pode ser perdida medida em tempo

Exemplo: RPO de 1 hora significa que backups devem ocorrer a cada hora

Impacto: Define frequência de backups e tecnologias de replicação

Tier de Criticidade:

  • Tier 1 (Crítico): RTO < 1h, RPO < 15min - Replicação síncrona
  • Tier 2 (Importante): RTO 4-8h, RPO 1h - Backup incremental frequente
  • Tier 3 (Normal): RTO 24h, RPO 24h - Backup diário

Regra 3-2-1 de Backup

Estratégia ouro de proteção de dados:

  • 3 Três cópias dos dados: produção + 2 backups
  • 2 Dois tipos de mídia diferentes: disco, fita, cloud
  • 1 Uma cópia off-site: geograficamente separada

Evolução moderna: 3-2-1-1-0
+ 1 cópia imutável (ransomware-proof)
+ 0 erros na restauração (testes regulares)

Tipos de Backup

1. Backup Completo (Full)

  • Vantagem: Restauração simples e rápida
  • Desvantagem: Lento, consome muito espaço
  • Uso: Semanal ou mensal como baseline

2. Backup Incremental

  • Vantagem: Rápido, economiza espaço
  • Desvantagem: Restauração requer full + todos os incrementais
  • Uso: Diário ou horário entre fulls

3. Backup Diferencial

  • Vantagem: Restauração mais simples que incremental
  • Desvantagem: Cresce até o próximo full
  • Uso: Diário quando simplicidade de restore é crítica

4. Snapshot e Replicação

  • Snapshots: Point-in-time copies, restauração instantânea
  • Replicação Síncrona: Zero data loss (RPO=0)
  • Replicação Assíncrona: Geographically distributed

Tecnologias e Soluções

On-Premises

  • Veeam Backup & Replication: Líder para ambientes virtualizados
  • Commvault, Veritas NetBackup: Enterprise backup platforms
  • Acronis Cyber Protect: Backup + antimalware integrado
  • Dell EMC Data Domain: Deduplicated backup appliances

Cloud-Based

  • AWS Backup: Centralized backup para serviços AWS
  • Azure Backup: Integrado com Azure services
  • Google Cloud Backup: Backups automatizados GCP
  • Druva, Backblaze B2: Cloud-native backup solutions

Databases

  • MySQL/PostgreSQL: pg_dump, mysqldump + point-in-time recovery
  • MongoDB: mongodump, Ops Manager backup
  • SQL Server: Native backup + Always On Availability Groups
  • Oracle RMAN: Recovery Manager para ambientes Oracle

Proteção contra Ransomware

Backups à prova de ransomware:

  • Imutabilidade: Object lock (S3), WORM storage, immutable backups
  • Air-gapping: Backups offline desconectados da rede
  • Separação de Credenciais: Backup admins ≠ domain admins
  • MFA: Autenticação multifator para acesso a backups
  • Versionamento: Múltiplas versões para recovery pre-infection
  • Scanning: Antimalware nos backups antes de restauração
  • Alertas: Detecção de modificações massivas (possível crypto)

Disaster Recovery Planning

  • DR Site: Secondary datacenter ou cloud region
  • Failover Automation: Scripts ou orquestração automática
  • Runbooks: Documentação passo-a-passo de recovery
  • Priorização: Order de recovery baseado em criticidade
  • Dependências: Mapa de interdependências entre sistemas
  • Network Configuration: DNS, VPN, firewall rules para DR
  • Communication Plan: Stakeholders, clientes, equipe

Testes de Recuperação

Tipos de testes (realizar no mínimo anualmente):

  • Tabletop Exercise: Discussão teórica do plano sem execução
  • Restore Testing: Restauração de samples em ambiente isolado
  • Partial Failover: Failover de sistemas não-críticos
  • Full DR Test: Failover completo (geralmente em maintenance window)
  • Chaos Engineering: Falhas injetadas intencionalmente

Importante: Um backup não testado não é um backup. Falhas são descobertas na hora da necessidade se não houver testes regulares.

Melhores Práticas

  • [OK] Implementar regra 3-2-1-1-0
  • [OK] Definir RTO/RPO claros por sistema
  • [OK] Backups imutáveis para proteção ransomware
  • [OK] Testes trimestrais de restauração
  • [OK] Monitoramento e alertas de falhas de backup
  • [OK] Criptografia de backups (at rest e in transit)
  • [OK] Documentação atualizada de runbooks
  • [OK] Separação de privilégios (backup admin ≠ domain admin)
  • [OK] Retenção conforme compliance (LGPD, SOX, etc)
  • [OK] DR site geograficamente distribuído