Read, hack, repeat

Conheça a infraestrutura de armazenamento do Internet Archive

Guilherme Petry

O Internet Archive (IA) é uma instituição sem fins lucrativos com sede em São Francisco, Califórnia, que oferece um acervo de músicas; vídeos; filmes; livros; estudos; código de websites, softwares e games de domínio público, ou seja, que não são propriedade de um indivíduo ou organização. Além disso, oferece também serviços de arquivo histórico de websites, com as ferramentas Archive-It e Wayback Machine.

A história do IA comecou em 1996, quando a internet comercial ainda era pouco difundida. Atualmente, a organização oferece 475 bilhões de sites arquivados; 28 milhões de textos, livros e estudos; 14 milhões de áudios (sendo 220 mil shows ao vivo), 6 milhões de vídeos (sendo 2 milhões de programas de televisão), 3,5 milhões de imagens e 580 mil softwares. “Temos mais de 20 anos de história da web acessível por meio do Wayback Machine e trabalhamos com mais de 625 bibliotecas e outros parceiros por meio de nosso programa Archive-It”, escreve o IA na página “Sobre” do site.

De acordo com Jonah Edwards, gerente de operações e infraestrutura do Internet Archive, para dar conta dessa quantidade assustadora de material, garantir a qualidade do serviço e a privacidade de seus usuários, a organização não utiliza soluções de armazenamento em nuvem. Todos os arquivos upados no Internet Archive ficam armazenados nos mais de 20 mil discos rígidos, divididos entre os 750 servidores que ficam instalados ao redor da sede, na Califórnia. Um total de 200 petabytes de capacidade de armazenamento, ou melhor, 200 milhões de gigabytes.

Mapa com a localização de 4 data centers do Internet Archive. Foto: Internet Archive.
Mapa com a localização de 4 data centers do Internet Archive. Foto: Internet Archive.

O poder de armazenamento do Internet Archive cresce 25% por ano. Isso significa que novos discos rígidos são comprados constantemente para suprir a necessidade de armazenamento que só cresce. Segundo Jonah, o número de acessos e a quantidade de material baixado do site cresceu assustadoramente durante a pandemia do novo coronavírus (COVID-19), que fez com que o IA investisse ainda mais em infraestrutura.

Funcionário carrega o equivalente a 10 petabytes de discos rígidos que foram adquiridos para integrar a infraestrutura do Internet Archive. Foto: Internet Archive.
Funcionário carrega o equivalente a 10 petabytes de discos rígidos que foram adquiridos para integrar a infraestrutura do Internet Archive. Foto: Internet Archive.

Jonah explica que a organização utiliza servidores locais, ao invés de soluções de armazenamento em nuvem principalmente pela questão do custo. Uma infraestrutura como essa vinda da Amazon Web Services (AWS), por exemplo, custaria muito mais do que já é gasto com a estrutura física.

Além disso, uma estrutura física também pode garantir alguns princípios básicos do IA, como transparência, simplicidade, durabilidade, performance e longevidade. Quando há um problema com um disco, a equipe responsável consegue rastrear e corrigir com muito mais eficiência que os clientes de serviços em nuvem conseguem. Outra vantagem de utilizar servidores locais, é que o IA pode garantir a privacidade de seus usuários, já que serviços em nuvem podem rastrear e coletar dados de uso de seus usuários.

Financiamento

Jonah explica que o Internet Archive é uma instituição caracterizada como arquivo e biblioteca, por esse motivo, podem acessar benefícios de financiamento do governo, principalmente os benefícios da Comissão Federal de Comunicações dos Estados Unidos (FCC). O IA também aceita doação de empresas, usuários e outras instituições. Na página “Sobre” do site do IA é possível encontrar uma lista com todas as fontes de renda da organização.


Fonte: Internet Archive (1) (2).

Compartilhar twitter/ facebook/ Copiar link
Your link has expired
Success! Check your email for magic link to sign-in.