Com'è ben elasticsearch comprimere i dati?

Sto cercando di includere i server necessari per un concetto di elasticità di ricerca.

In definitiva, la mia domanda è questa:

  • Registrazione automatica e gestione dei backup di SQL Server 2005
  • Quale formato di archiviazione / compressione?
  • Evita la compressione double (de) in Subversion con Apache
  • Disabilita la compressione deflate in SSL nginx
  • come abilitare la compressione dei contenuti dinamici di iis 7?
  • Cosa c'è di più veloce, cp -R o disimballaggio dei file tar.gz?
  • Dato 1 GB di text json indicizzato da elasticsearch, quanto posso prevedere di essere occupato sul disco da elasticsearch?

    Ovviamente ci sono molte variables, ma vado per ordini di grandezza. 100MB? 100GB?

    Capisco che la elasticità di ricerca esegue la compressione ( http://www.elasticsearch.org/guide/reference/index-modules/store/ ), ma non so quale tipo di impronta occupano gli indici e le altre strutture.

    Le risposte aneddotiche sono accettabili, ma per favore, fatecelo anche sapere quale versione stai usando.

    One Solution collect form web for “Com'è ben elasticsearch comprimere i dati?”

    La risposta è, dipende.

    Un post di blog di Adrien Grand, che lavora su Elasticsearch ha fatto qualche benchmarking con questo dal punto di vista Lucene. Sembra che stava ottenendo circa 2x miglioramento.

    Parla anche di LUCENE-4226 , in cui sono stati eseguiti alcuni lavori di compressione sottostante. Ci sono alcuni benchmark elencati dentro, confrontando i diversi algoritmi di compressione testati.

    Inoltre, in base a questo annuncio di rilascio di Elasticsearch 0.19.5 , sembra che la compressione a livello di riserva predefiniti a LZF, con Snappy che arriverà in futuro. Ulteriormente guardando intorno ha mostrato che il supporto sperimentale Snappy è apparso in 0.19.9

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.