Backup dei dati memorizzati su Amazon S3

Ho un'istanza EC2 che esegue un server web che memorizza i file caricati dagli utenti su S3. I file sono scritti una volta e non cambiano mai, ma vengono recuperati occasionalmente dagli utenti. Probabilmente si accumulerà da qualche parte circa 200-500 GB di dati all'anno. Vorremmo garantire che questi dati siano al sicuro, in particolare da eliminazioni accidentali e vorrebbero essere in grado di ripristinare i file eliminati indipendentemente dalla ragione.

Ho letto sulla funzionalità di versione per i secchi S3, ma non riesco a trovare se il recupero è ansible per i file senza storia di modifica. Vedere i documenti AWS qui in versione:

  • bind: imansible assegnare l'indirizzo richiesto
  • Qual è l'utente di rdsadmin e mi interessa?
  • s3cmd eseguire sulla row di command non su cron
  • Sincronizzare strutture di cartelle molto grandi
  • EC2 Aggiorna l'attuale AMI
  • Assegnare lo script PowerShell all'avvio all'avvio utilizzando PowerShell su Window Server 2012
  • http://docs.aws.amazon.com/AmazonS3/latest/dev/ObjectVersioning.html

    In quegli esempi, essi non mostrano lo scenario in cui i dati vengono caricati, ma non sono stati modificati e quindi eliminati. I file cancellati in questo scenario sono recuperabili?

    Allora, abbiamo pensato che possiamo solo eseguire il backup dei file S3 a Glacier utilizzando la gestione del ciclo di vita di un object:

    http://docs.aws.amazon.com/AmazonS3/latest/dev/object-lifecycle-mgmt.html

    Ma sembra che questo non funziona per noi, poiché l'object file non viene copiato nel Ghiacciaio ma si è trasferito in Ghiacciaio (più accuratamente sembra che sia un attributo di object che viene modificato, ma comunque …).

    Quindi sembra che non esiste un modo diretto per il backup dei dati S3 e il trasferimento dei dati da S3 a server locali può richiedere molto tempo e potrebbe comportre importnti costi di trasferimento nel tempo.

    Infine, abbiamo pensato di creare un nuovo secchio each mese per servire come un backup completo mensile e copiare i dati del secchio originale per il nuovo nel giorno 1. Quindi usando qualcosa come la duplicità ( http://duplicity.nongnu.org/ ) avremmo sincronizzato il secchio di backup each notte. Alla fine del mese avremmo messo il contenuto della benna di riserva nel deposito del ghiacciaio e creiamo un nuovo secchio di backup usando una nuova copia attuale del secchio originale … e ripetiamo questo process. Questo sembra funzionare e ridurre al minimo i costi di archiviazione / trasferimento, ma non sono sicuro se la duplicità consente i trasferimenti da bucket-to-bucket direttamente senza riportre i dati al primo client di controllo.

    Quindi, credo che ci siano due domande qui. In primo luogo, la versione S3 consente il ripristino di file che non sono stati mai modificati? C'è qualche modo per "copiare" i file da S3 a Glacier che ho perso? Può la duplicità o qualsiasi altro file di trasferimento degli strumenti tra i secchi S3 direttamente per evitare costi di trasferimento? Infine, mi allontano il segno nel mio approccio per eseguire il backup dei dati S3?

    Grazie in anticipo per qualsiasi informazione che potresti fornire!

    Aggiornare

    Amazon ha recentemente annunciato che la versione in corso funziona con le regole del ciclo di vita

  • C'è un modo per recuperare tutti i contenuti da un bucket Amazon S3 in versione aggiornata a partire da un determinato data-time
  • AMI in Amazon EC2
  • La riscrittura di Url in Amazon S3
  • AWS Windows EC2 istanza: quotidianamente snapshot EBS senza tempi di inattività
  • Amazon CloudFront e EC2: Global Load Balancing
  • Come posso riutilizzare le risorse esistenti in CloudFormation?
  • 3 Solutions collect form web for “Backup dei dati memorizzati su Amazon S3”

    Ho letto circa la funzionalità di versione per i secchi S3, ma non riesco a trovare se> il ripristino è ansible per i file senza storia di modifica. Vedere i documenti AWS qui in> versioning:

    Ho appena provato questo. Sì, puoi ripristinare dalla versione originale. Quando elimina il file, crea un marcatore di eliminazione e puoi ripristinare la versione precedente, vale a dire: la singola revisione.

    Allora, abbiamo pensato che possiamo solo eseguire il backup dei file S3 in Glacier utilizzando il ciclo di vita di un object> gestione:

    Ma sembra che questo non funziona per noi, poiché l'object file non viene copiato in Ghiacciaio, ma è stato trasferito al Ghiacciaio (più accuratamente sembra che sia un attributo di object che viene modificato, ma comunque …).

    Il ghiacciaio è realmente destinato ad essere immagazzinato a lungo termine, che viene raramente raggiunto. Può anche essere molto costoso per recuperare una gran parte dei tuoi dati in una sola volta, in quanto non è destinata al ripristino puntuale di un sacco di dati (percentuale).

    Infine, abbiamo pensato di creare un nuovo secchio each mese per servire come un backup mensile completo e copiare i dati del secchio originale per il nuovo nel giorno 1. Quindi utilizzare qualcosa come duplicità ( http: //duplicity.nongnu. org / ) abbiamo sincronizzato il secchio di backup each notte.

    Non farlo, puoi avere solo 100 secchi per conto, pertanto in 3 anni avrai preso un terzo del tuo guadagno con solo backup.

    Quindi, credo che ci siano due domande qui. In primo luogo, la versione S3 consente il recupero di file> non modificati?

    C'è qualche modo per "copiare" i file da S3 a Glacier che ho perso?

    Non che io sappia

    Non mi piace avere montato s3, perché il suo lento e può appendere e esegue come old school nfs. meglio semplicemente su / giù come necessario.

    http://s3tools.org/s3cmd

    il suo facile da scrivere … non dimentichi il tuo file ~ / .s3cfg

    Sembra che potrebbe essere necessario S3FS che fondamentalmente monta i tuoi secchi S3 come se fossero sisthemes di file locali:

    http://code.google.com/p/s3fs/wiki/FuseOverAmazon

    Preferisco utilizzare questa versione forgiata poiché conserva la stessa struttura di cartella di quella creata nel pannello di controllo Web per Amazon S3:

    https://github.com/tongwang/s3fs-c

    Allora ho alcuni script di shell che utilizzano rsync per sincronizzare i dati alle impostazioni locali.

    In generale, trovo che S3FS funziona meglio per leggere i contenuti inseriti nei secchielli Amazon S3. La scrittura non è così coerente. Ma ai fini del backup dei secchi S3, la forchetta di Tony Wang di S3FS funziona ottimamente.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.