Teste estatístico para séries cronológicas onde ocorre o resultado - python

votos
15

Estou a pedir ajuda em relação aos testes de regressão. Eu tenho uma série temporal contínua que flutua entre inteiros positivos e negativos. Eu também tenho eventos que ocorrem ao longo desta série temporal em pontos de tempo aparentemente aleatórios. Essencialmente, quando um evento ocorre eu pego o respectivo número inteiro. Depois quero testar se este número inteiro influencia o evento de alguma forma. Como em, existem mais números inteiros positivos/negativos

Eu originalmente pensei em regressão logística com o número positivo/negativo mas isso exigiria pelo menos dois grupos distintos. Enquanto que, eu só tenho informações sobre eventos que ocorreram. Eu não posso realmente incluir essa quantidade de eventos que não ocorrem por ser algo contínuo e aleatório. A quantidade de vezes que um evento não ocorre é impossível de medir

Portanto, o meu grupo distinto é todo verdadeiro num certo sentido, pois não tenho nenhum resultado de algo que não ocorreu. O que eu estou a tentar classificar é

Quando um resultado ocorre, o número inteiro positivo ou negativo influencia esse resultado.

Publicado 11/05/2020 em 04:28
fonte usuário
Em outras línguas...                            


3 respostas

votos
0

Embora, a questão seja bastante difícil de entender depois do primeiro parágrafo. Deixe-me ajudar a partir do que pude entender a partir desta pergunta.

Assumindo que você quer entender se há relação entre os eventos que acontecem e os inteiros nos dados.

1ª abordagem: Plotar os dados numa escala 2d e verificar visualmente se há uma relação entre os dados. 2ª abordagem: faça os dados dos eventos contínuos e remova os eventos de outros dados e, usando a janela rolante, suavize os dados e depois compare as duas tendências.

A abordagem acima só funciona bem se eu estiver entendendo corretamente o seu problema Há também mais uma coisa conhecida como viés de Sobrevivência. Você pode estar faltando dados, por favor, verifique também essa parte.

Respondeu 18/05/2020 em 13:52
fonte usuário

votos
0

Parece que você está interessado em determinar as forças subjacentes que estão produzindo um determinado fluxo de dados. Tais modelos matemáticos são chamados de Modelos Markov. Um exemplo clássico é o estudo de texto

Por exemplo, se eu executar um algoritmo de Modelo Markov Escondido num parágrafo de texto em inglês, então descobrirei que existem duas categorias de condução que estão a determinar as probabilidades de quais letras aparecem no parágrafo. Essas categorias podem ser divididas em dois grupos, "aeiouy" e "bcdfghjklmnpqrstvwxz". Nem a matemática nem o HMM "sabiam" o que chamar essas categorias, mas elas são o que converge estatisticamente com a análise de um parágrafo de texto. Podemos chamar essas categorias de "vogais" e "consoantes". Portanto, sim, vogais e consoantes não são apenas categorias de primeira série para aprender, elas seguem a forma como o texto é escrito estatisticamente. Curiosamente, um "espaço" comporta-se mais como uma vogal do que uma consoante. Eu não dei as probabilidades para o exemplo acima, mas é interessante notar que "y" acaba com uma probabilidade de aproximadamente 0,6 vogais e 0,4 consoantes; o que significa que "y" é a vogal com comportamento mais consonante estatisticamente

Um grande artigo é https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf que passa em revista as ideias básicas deste tipo de análise de séries temporais e até fornece algum sudo-código para referência

Eu não sei muito sobre os dados que você está lidando e não sei se os conceitos de "positivo" e "negativo" estão jogando um fator determinante nos dados que você vê, mas se você correu um HMM nos seus dados e descobriu que os dois grupos são a coleta de números positivos e a coleta de números negativos, então sua resposta seria confirmada, sim, as duas categorias mais influentes que estão dirigindo seus dados são os conceitos de positivo e negativo. Se eles não se dividirem igualmente, então a sua resposta é que esses conceitos não são um factor influente na condução dos dados. Mais ainda, o algoritmo terminaria com várias matrizes de probabilidade que lhe mostrariam o quanto cada número inteiro nos seus dados está sendo influenciado por cada categoria, portanto você teria uma percepção muito maior no comportamento dos seus dados de série temporal

Respondeu 19/05/2020 em 07:59
fonte usuário

votos
0

Talvez eu esteja entendendo mal o seu problema, mas não acredito que você possa realizar qualquer tipo de regressão significativa sem mais informações.

A regressão é normalmente usada para encontrar uma relação entre duas ou mais variáveis, no entanto, parece que você só tem uma variável (se elas forem positivas ou negativas) e uma constante (o resultado é sempre verdadeiro nos dados). Talvez você possa fazer algumas estatísticas sobre a distribuição dos números (média, mediana, desvio padrão), mas não tenho certeza de como você pode fazer a regressão. https://en.wikipedia.org/wiki/Regression_analysis

Você pode querer considerar que pode haver algum forte viés de sobrevivência se você estiver faltando um grande pedaço de seus dados. https://en.wikipedia.org/wiki/Survivorship_bias

Espero que isto seja pelo menos um pouco útil para o guiar na direcção certa

Respondeu 11/05/2020 em 04:53
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more