Acabei de transferir o máximo de dados link-estrutura, referente wikipedia (Inglês) quanto eu poderia. Basicamente, eu baixei um monte de SQL despejos de wikipedia mais recente repositório de despejo . Desde que eu estou usando PostgreSQL em vez do MySQL, eu decidi carregar todas estas lixeiras em meu db usando comandos shell gasoduto .
De qualquer forma, uma dessas tabelas tem 295 milhões de linhas: a pagelinks mesa; ele contém todos os hiperlinks intra-wiki. Do meu laptop, usando pgAdmin III, enviei o seguinte comando para o meu servidor de banco de dados (outro computador):
SELECT pl_namespace, COUNT(*) FROM pagelinks GROUP BY (pl_namespace);
Sua sido para ele por uma hora ou assim agora. A coisa é que o postmaster parece estar comendo mais e mais do meu espaço muito limitado HD. Eu acho que comeu cerca de 20 GB a partir de agora. Eu já tinha jogado ao redor com o arquivo postgresql.conf, a fim de dar-lhe mais flexibilidade desempenho (ou seja, deixá-lo usar mais recursos) para ele está sendo executado com 12 GB de RAM. Eu acho que, basicamente quadruplicou a maioria dos bytes e tais variáveis relacionadas deste arquivo pensando que iria usar mais memória RAM para fazer a sua coisa.
No entanto, o db não parece usar muito RAM. Usando o monitor do sistema Linux, eu sou capaz de ver que o servidor está usando 1.6 GB de memória compartilhada (RAM). Enfim, eu queria saber se vocês poderiam me ajudar a entender melhor o que está fazendo para ele parece que eu realmente não entendo como o PostgreSQL utiliza recursos HD .
Em relação à meta-estrutura de bases de dados wikipedia, eles fornecem um bom esquema que podem ser de uso ou mesmo, mas de interesse para você.
Sinta-se livre para perguntar-me para mais detalhes, thx.













