N-grams - não na memória

votos
1

Eu tenho 3 milion resumos e eu gostaria de extrair 4-gramas a partir deles. Eu quero construir um modelo de linguagem, então eu preciso encontrar as frequências destas 4-gramas.

Meu problema é que eu não posso extrair todos estes 4-grams na memória. Como posso implementar um sistema que pode estimar todas as frequências para estes 4 gramas?

Publicado 21/09/2016 em 09:09
fonte usuário
Em outras línguas...                            


1 respostas

votos
0

Parece que você precisa para armazenar as contagens de freqüência intermediários no disco, em vez de na memória. Felizmente a maioria dos bancos de dados podem fazer isso, e python pode falar com a maioria dos bancos de dados.

Respondeu 21/09/2016 em 09:20
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more