Como empilhar camadas LSTM para classificar os arquivos de voz

votos
3

Eu tenho tentado implementar um LSTM classificador base para classificar a fala descrete. Eu criei vetores de características com 13 MFCC. Para um determinado arquivo tem vector 2D [99, 13]. Depois de seguir o exemplo mnist_irnn eu poderia configurar uma única camada RNN para classificar meus arquivos de voz. Mas agora eu quero adicionar mais camadas à rede. Portanto, eu tenho tentado implementar a rede com duas camadas LSTM e camada softmax como a camada de saída. Depois de passar pelo número de mensagens aqui que eu poderia configurar a rede da seguinte forma, onde não lançar quaisquer exceções durante o tempo de construção de modelos.

from __future__ import print_function
import numpy as np

from keras.optimizers import SGD
from keras.utils.visualize_util import plot

np.random.seed(1337)  # for reproducibility
from keras.preprocessing import sequence
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation, TimeDistributedDense
from keras.layers.recurrent import LSTM
from SpeechResearch import loadData

batch_size = 5
hidden_units = 100
nb_classes = 10
print('Loading data...')
(X_train, y_train), (X_test, y_test) = loadData.load_mfcc(10, 2)

print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)
print('y_train shape:', y_train.shape)
print('y_test shape:', y_test.shape)
print('Build model...')

Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)
print(batch_size, 99, X_train.shape[2])
print(X_train.shape[1:])
print(X_train.shape[2])
model = Sequential()

model.add(LSTM(output_dim=hidden_units, init='uniform', inner_init='uniform',
               forget_bias_init='one', activation='tanh', inner_activation='sigmoid', return_sequences=True,
               stateful=True, batch_input_shape=(batch_size, 99, X_train.shape[2])))
# model.add(Dropout(0.5))
model.add(LSTM(output_dim=hidden_units, init='uniform', inner_init='uniform',
               forget_bias_init='one', activation='tanh', inner_activation='sigmoid', return_sequences=True,
               stateful=True, input_length=X_train.shape[2]))

model.add(TimeDistributedDense(input_dim=hidden_units, output_dim=nb_classes))
model.add(Activation('softmax'))

# try using different optimizers and different optimizer configs
sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy', optimizer=sgd)

print(Train...)
model.fit(X_train, Y_train, batch_size=batch_size, nb_epoch=3, validation_data=(X_test, Y_test), show_accuracy=True)
score, acc = model.evaluate(X_test, Y_test,
                            batch_size=batch_size,
                            show_accuracy=True)
print('Test score:', score)
print('Test accuracy:', acc)

Tenho estado a tentar valores diferentes em diferentes pontos. (No momento eu tenho tentado com uma pequena amostra, portanto, os valores são muito pequenos) Mas, agora, ele está jogando exceção durante o treinamento. Alguns incompatibilidade dimensão.

Using Theano backend.
Loading data...
100 train sequences
20 test sequences
X_train shape: (100, 99, 13)
X_test shape: (20, 99, 13)
y_train shape: (100,)
y_test shape: (20,)
Build model...
5 99 13
(99, 13)
13
Train...
Train on 100 samples, validate on 20 samples
Epoch 1/3

Traceback (most recent call last):
  File /home/udani/PycharmProjects/testResearch/SpeechResearch/lstmNetwork.py, line 54, in <module>
    model.fit(X_train, Y_train, batch_size=batch_size, nb_epoch=3, validation_data=(X_test, Y_test), show_accuracy=True)
  File /usr/local/lib/python2.7/dist-packages/keras/models.py, line 581, in fit
    shuffle=shuffle, metrics=metrics)
  File /usr/local/lib/python2.7/dist-packages/keras/models.py, line 239, in _fit
    outs = f(ins_batch)
  File /usr/local/lib/python2.7/dist-packages/keras/backend/theano_backend.py, line 365, in __call__
    return self.function(*inputs)
  File /home/udani/Documents/ResearchSW/Theano/theano/compile/function_module.py, line 786, in __call__
    allow_downcast=s.allow_downcast)
  File /home/udani/Documents/ResearchSW/Theano/theano/tensor/type.py, line 177, in filter
    data.shape))
TypeError: ('Bad input argument to theano function with name /usr/local/lib/python2.7/dist-packages/keras/backend/theano_backend.py:362  at index 1(0-based)', 'Wrong number of dimensions: expected 3, got 2 with shape (5, 10).')

Eu gostaria de saber o que estou fazendo de errado aqui. Tenho sido indo ao longo do dia código todo, mas ainda sou incapaz de descobrir a razão para a dimensão incompatibilidade.

Além disso, eu ficaria muito grato se alguém pode explicar o que se entende por output_dim. (É que a forma da saída do vetor por um único nó, quando temos n número de nós em uma determinada camada? Deveria ser igual ao número de nós na próxima camada?)

Publicado 23/01/2016 em 16:44
fonte usuário
Em outras línguas...                            


1 respostas

votos
1

Você tem um problema com a Ydimensão, a saída deve ser algo como (100, 99, 10), que é um conjunto de seqüências de saídas, mesmo que recursos, apenas 1 em cada saída. Parece que seu Yvetor é diferente. Método to_categoricalnão é realmente aplicável a uma sequência, que espera um vetor.

Alternativamente, você pode produzir um único vector e alimentá-lo em uma camada densa em na última camada LSTM com return_sequences=False

Você não precisa de rede stateful também.

Respondeu 23/01/2016 em 19:11
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more