log_prob Entendimento para a distribuição normal em pytorch

votos
1

Atualmente estou tentando resolver Pendulum-V0 a partir do ambiente de ginásio openAi que tem um espaço de ação contínua. Como resultado, eu preciso usar uma distribuição normal para provar minhas ações. O que eu não entendo é a dimensão do log_prob quando usá-lo:

digite

I era esperado um tensor de tamanho dois (um para cada log_prob acções), mas a saída de um tensor de tamanho (2,2).

No entanto, quando se utiliza uma distribuição Categóricos para o ambiente discreta log_prob tem o tamanho esperado. Porque é que a log_prob para a distribuição normal de um tamanho diferente?

Publicado 19/03/2020 em 21:23
fonte usuário
Em outras línguas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more