Com'è ben elasticsearch comprimere i dati?

Sto cercando di includere i server necessari per un concetto di elasticità di ricerca.

In definitiva, la mia domanda è questa:

  • Ci sono altre opzioni per estrarre un file in Ubuntu oltre a "unzip"?
  • È buona pratica usare la compressione NTFS sulle cartelle del registro IIS?
  • Compressione SSH
  • Apache2 e logrotate: è necessario il delaycompress?
  • Come faccio ad abilitare la compressione HTTP in apache2?
  • Visualizza / Trova tutti i file compressi sul server?
  • Dato 1 GB di text json indicizzato da elasticsearch, quanto posso prevedere di essere occupato sul disco da elasticsearch?

    Ovviamente ci sono molte variables, ma vado per ordini di grandezza. 100MB? 100GB?

    Capisco che la elasticità di ricerca esegue la compressione ( http://www.elasticsearch.org/guide/reference/index-modules/store/ ), ma non so quale tipo di impronta occupano gli indici e le altre strutture.

    Le risposte aneddotiche sono accettabili, ma per favore, fatecelo anche sapere quale versione stai usando.

    One Solution collect form web for “Com'è ben elasticsearch comprimere i dati?”

    La risposta è, dipende.

    Un post di blog di Adrien Grand, che lavora su Elasticsearch ha fatto qualche benchmarking con questo dal punto di vista Lucene. Sembra che stava ottenendo circa 2x miglioramento.

    Parla anche di LUCENE-4226 , in cui sono stati eseguiti alcuni lavori di compressione sottostante. Ci sono alcuni benchmark elencati dentro, confrontando i diversi algoritmi di compressione testati.

    Inoltre, in base a questo annuncio di rilascio di Elasticsearch 0.19.5 , sembra che la compressione a livello di riserva predefiniti a LZF, con Snappy che arriverà in futuro. Ulteriormente guardando intorno ha mostrato che il supporto sperimentale Snappy è apparso in 0.19.9

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.