Wednesday 27 September 2017

Compare A Regressão Linear Com As Médias Móveis E Técnicas De Suavização


Previsão por Técnicas de Suavização Este site é uma parte dos objetos de aprendizado de E-Labs JavaScript para a tomada de decisões. Outro JavaScript nesta série é categorizado em diferentes áreas de aplicações na seção MENU nesta página. Uma série temporal é uma sequência de observações que são ordenadas a tempo. Inerente à coleta de dados obtidos ao longo do tempo é alguma forma de variação aleatória. Existem métodos para reduzir o cancelamento do efeito devido a variação aleatória. As técnicas amplamente utilizadas são o alisamento. Essas técnicas, quando aplicadas corretamente, revelam mais claramente as tendências subjacentes. Digite as séries temporais em ordem de linha em sequência, a partir do canto superior esquerdo e o (s) parâmetro (s), e clique no botão Calcular para obter uma previsão em um período de antecedência. As caixas em branco não estão incluídas nos cálculos, mas os zeros são. Ao inserir seus dados para mover de célula para célula na matriz de dados, use a tecla Tab, sem seta ou digite as chaves. Características das séries temporais, que podem ser reveladas examinando seu gráfico. Com os valores previstos e o comportamento dos resíduos, modelagem de previsão de condições. Médias móveis: as médias médias classificam-se entre as técnicas mais populares para o pré-processamento de séries temporais. Eles são usados ​​para filtrar o ruído branco aleatório dos dados, para tornar as séries temporais mais suaves ou mesmo para enfatizar certos componentes informativos contidos nas séries temporais. Suavização exponencial: Este é um esquema muito popular para produzir uma série de tempo suavizada. Considerando que, nas Médias móveis, as observações passadas são ponderadas de forma igual, Suavização exponencial atribui pesos exponencialmente decrescentes à medida que a observação envelhece. Em outras palavras, as observações recentes recebem relativamente mais peso na previsão do que as observações mais antigas. O Suavizado Exponencial Duplo é melhor nas tendências de manuseio. O Triple Exponential Suavização é melhor no manuseio de tendências da parábola. Uma média móvel ponderada exponencialmente com uma constante de suavização a. Corresponde aproximadamente a uma média móvel simples de comprimento (isto é, período) n, onde a e n estão relacionados por: a 2 (n1) OR n (2 - a) a. Assim, por exemplo, uma média móvel ponderada exponencialmente com uma constante de suavização igual a 0,1 corresponderia aproximadamente a uma média móvel de 19 dias. E uma média móvel simples de 40 dias corresponderia aproximadamente a uma média móvel ponderada exponencialmente com uma constante de suavização igual a 0,04878. Holst Linear Exponential Suavização: Suponha que as séries temporais não sejam sazonais, mas que mostram a tendência de exibição. O método Holts estima tanto o nível atual como a atual tendência. Observe que a média móvel simples é um caso especial do alisamento exponencial, definindo o período da média móvel para a parte inteira de (2-Alpha) Alpha. Para a maioria dos dados de negócios, um parâmetro Alpha menor que 0.40 geralmente é efetivo. No entanto, pode-se realizar uma pesquisa em grade do espaço dos parâmetros, com 0,1 a 0,9, com incrementos de 0,1. Então, o melhor alfa tem o menor erro absoluto médio (erro MA). Como comparar vários métodos de suavização: embora existam indicadores numéricos para avaliar a precisão da técnica de previsão, a abordagem mais ampla é o uso de comparação visual de várias previsões para avaliar sua precisão e escolher entre os vários métodos de previsão. Nesta abordagem, é necessário traçar (usando, por exemplo, Excel), no mesmo gráfico, os valores originais de uma variável de séries temporais e os valores previstos de vários métodos de previsão diferentes, facilitando assim uma comparação visual. Você pode gostar de usar as previsões passadas por Smoothing Techniques JavaScript para obter os valores de previsão passados ​​com base em técnicas de suavização que usam apenas um único parâmetro. Os métodos Holt e Winters usam dois e três parâmetros, respectivamente, portanto, não é uma tarefa fácil selecionar os valores ideais ótimos, ou mesmo próximos, por testes e erros para os parâmetros. O alisamento exponencial único enfatiza a perspectiva de curto alcance, ele define o nível para a última observação e baseia-se na condição de que não há nenhuma tendência. A regressão linear, que se adapta a uma linha de mínimos quadrados aos dados históricos (ou dados históricos transformados), representa o longo alcance, que está condicionado à tendência básica. Holder linear exponencial suavização capta informações sobre a tendência recente. Os parâmetros no modelo Holts são níveis-parâmetro que devem ser diminuídos quando a quantidade de variação de dados é grande e as tendências-parâmetro devem ser aumentadas se a direção da tendência recente for suportada pelos fatores causais. Previsão de curto prazo: observe que cada JavaScript nesta página fornece uma previsão de um passo a frente. Para obter uma previsão de duas etapas. Simplesmente adicione o valor previsto para o final de seus dados da série temporal e clique no mesmo botão Calcular. Você pode repetir este processo por algumas vezes para obter as previsões necessárias a curto prazo. Forecasting Computer Usage Julie M. Hays Universidade de St. Thomas Jornal de Estatística Educação Volume 11, Número 1 (2003), ww2.amstat. orgpublicationsjsev11n1datasets. hays. html Copyright copy 2003 por Julie M. Hays, todos os direitos reservados. Este texto pode ser compartilhado gratuitamente entre os indivíduos, mas não pode ser republicado em nenhum meio sem o consentimento expresso por escrito do autor e notificação prévia do editor. Palavras-chave: Previsão causal Construção do modelo Variação sazonal Regressão linear simples Previsão de séries temporais Transformações. O conjunto de dados bestbuy. dat. txt contém dados mensais reais sobre o uso do computador (Milhões de Instruções por Segundo, MIPS) e número total de lojas de agosto de 1996 a julho de 2000. Além disso, as informações sobre o número planejado de lojas até dezembro de 2001 estão disponíveis. Este conjunto de dados pode ser usado para comparar previsões de séries temporais com componentes de tendência e sazonalidade e previsão causal com base em regressão linear simples. O modelo de regressão linear simples exibe variações de erro desiguais, sugerindo uma transformação da variável dependente. 1. Introdução Um dos usos mais prevalentes da análise de regressão nas configurações reais do negócio é a previsão. Para um resumo de alguns métodos de previsão veja Armstrong (2001) ou Arsham (2002). O conjunto de dados bestbuy. dat. txt pode ser usado para demonstrar e discutir as séries temporais e as previsões causais. As restrições de tempo e os interesses e necessidades dos alunos determinam se eu forneço as análises ou os alunos realizam as análises. Utilizei este conjunto de dados ao longo do semestre em uma classe de Análise de Decisão MBA. Esta classe é um requisito básico para todos os estudantes de MBA da noite e cobre uma série de análise de decisão e tópicos estatísticos, incluindo análise de regressão e previsão. A maioria dos alunos é obrigada a realizar um curso introdutório de estatísticas de negócios antes deste curso, de modo que eles tiveram alguma exposição a tópicos estatísticos, mas poucos alunos têm alguma experiência acadêmica com a previsão. A Best Buy Co. Inc. (NYSE: BBY), com sede em Eden Prairie, Minnesota, é o maior revendedor especializado em eletrônicos de consumo, computadores pessoais, software de entretenimento e eletrodomésticos. Em agosto de cada ano, a Best Buy compra mainframe MIPS (Milhões de Instruções por Segundo, uma medida de recursos computacionais) em antecipação à próxima temporada de férias. Recursos de computação são necessários para rastrear e analisar informações de varejo necessárias para faturamento, inventário e vendas. Para fins de planejamento e orçamento, eles também desejam prever o número de MIPS necessários no ano seguinte. A Best Buy Corporation realmente usou este conjunto de dados para prever o uso do computador, a fim de orçar e comprar uma quantidade adequada de poder de computação. No entanto, antes de 2001, a Best Buy não fez nenhuma análise estatística desses dados. A Best Buy apenas olhou os números (eles nem sequer graficaram os dados) e depois adivinharam a quantidade de MIPS necessária no próximo ano. Os alunos são convidados a prever o MIPS necessário para dezembro de 2000 e dezembro de 2001 usando o conjunto de dados bestbuy. dat. txt. Este conjunto de dados foi obtido da Best Buy Corporation e contém dados mensais sobre o uso do computador (MIPS) e o número total de lojas de agosto de 1996 a julho de 2000. Além disso, as informações sobre o número planejado de lojas até dezembro de 2001 estão disponíveis. Os alunos podem facilmente entender a sazonalidade que as operações de varejo experimentam. A Best Buy Corporation experimentou um crescimento significativo ao longo dos últimos anos e a maioria dos alunos entende que, à medida que uma empresa cresce, sua necessidade de poder de computação também aumenta. Portanto, este conjunto de dados pode ser usado para demonstrar previsão de séries temporais com tendência e sazonalidade. Este conjunto de dados também pode ser usado para demonstrar a previsão causal com base na regressão linear simples do uso do computador e número de lojas. O modelo de regressão linear simples exibe variações de erro desiguais, sugerindo uma transformação da variável dependente. Finalmente, uma comparação entre o modelo da série temporal e o modelo causal pode ser feita e discutida com os alunos. 2. Previsão de séries temporais Antes de permitir que os alunos iniciem qualquer análise numérica, os alunos traçam o uso do computador versus o tempo. Os alunos previam o número de MIPS necessários para dezembro de 2000 e dezembro de 2001, usando apenas o gráfico do uso do computador (MIPS) em relação ao tempo, Figura 1. O gráfico mostra claramente uma tendência no uso do MIPS com o tempo. Normalmente, o globo ocular estuda o gráfico e prevê o uso de MIPS de 500 para dezembro de 2000 e 600 para dezembro de 2001. Figura 1. MIPS vs Time. Estudantes que realmente se encaixam em uma linha para o uso MIPS de dados de 527 para dezembro de 2000 e 624 para dezembro de 2001 (Figura 2). Figura 2. MIPS vs Time. Eu introduzo a média móvel simples, a média móvel ponderada e as técnicas de previsão de suavização exponencial para os alunos antes de tentar usar esses modelos de previsão para prever o uso futuro do MIPS. Eu também discuto a avaliação de modelos de previsão usando MAD e CFE (explicado abaixo). O leitor interessado pode encontrar discussões mais detalhadas sobre esses tópicos em Stevenson (2002) ou em Sparling (2002). Média móvel Uma média móvel de n-período é o valor médio em relação aos períodos de tempo n anteriores. À medida que avança no tempo, o período de tempo mais antigo é retirado da análise. Média de movimento ponderada Uma média móvel ponderada em meio-semestre permite que você coloque mais peso em períodos de tempo mais recentes, ponderando mais esses períodos de tempo. Suavização exponencial A previsão para o próximo período usando suavização exponencial é uma constante de suavização, (0 1), vezes a demanda no período atual plus (1- constante de suavização) vezes a previsão para o período atual. Onde F t1 é a previsão para o próximo período de tempo, F t é a previsão para o período de tempo atual, D t é a demanda no período de tempo atual e 0 1 é a constante de suavização. Para iniciar a previsão, assumir F 1 D 1. Maiores valores de um lugar mais peso nos períodos de tempo mais atuais. Como este modelo é menos intuitivo, eu costumo expandir esta equação para ajudar os alunos a entender que a demanda de períodos anteriores ao período atual está incluída neste modelo. E onde D t-1 é a demanda no período de tempo anterior, D t-2 é a demanda no período de tempo anterior ao período de tempo anterior, e F t-1 é a previsão no período de tempo anterior e F t - 2 é a previsão no período de tempo anterior ao período de tempo anterior. Como os requisitos de armazenamento de dados são consideravelmente menores do que para o modelo de média móvel, este tipo de modelo foi amplamente utilizado no passado. Agora, embora o armazenamento de dados geralmente não seja um problema, é típico das aplicações de negócios do mundo real por causa de seu uso histórico. Desvio absoluto médio (MAD) A avaliação dos modelos de previsão baseia-se no desejo de produzir previsões imparciais e precisas. O desvio absoluto médio (MAD) é uma medida comum da precisão da previsão. Soma cumulativa dos erros de previsão (CFE) A soma cumulativa dos erros de previsão (CFE) é uma medida comum do viés de previsão. Modelos melhores apresentariam menor MAD e CFE perto de zero. Depois de explicar essas técnicas, os alunos trabalham através do seguinte exemplo simples na sala de aula. Dou aos alunos o perfil de demanda (Tabela 1) e solicitei que eles calculem as previsões usando uma média móvel de 3 períodos e um alisamento exponencial com uma constante de suavização de 0,2. Eu também tenho que calcular o MAD e CFE para ambos os modelos. Discutimos o uso do MAD e CFE para determinar o melhor modelo. Eu também apontar para os alunos que escolhi arbitrariamente o número de períodos para o modelo da média móvel e a constante de suavização para o modelo suavizado exponencial. Eu discuto usando MAD e CFE para determinar a melhor escolha para essas variáveis. Tabela 1. Exemplo de previsão na classe. Todos os números arredondados para o cêntimo mais próximo Uma vez que os alunos estão familiarizados com essas técnicas, eu os estimo MIPS para dezembro de 2000 e 2001 usando uma média móvel de 3 períodos e alisamento exponencial com uma constante de suavização de 0,2 (Figura 3). Isso pode ser feito usando Excel, Minitab ou qualquer pacote de estatísticas. A previsão para a média móvel de 3 períodos é 463 MIPS e para o alisador exponencial é 450 MIPS. Figura 3. MIPS reais e previstos. Os alunos podem facilmente ver que há um problema com suas previsões. Embora eu tenha dito aos alunos que os modelos de previsão de suavização exponencial e movimentação média são apropriados apenas para dados estacionários, eles realmente não entendem isso até tentarem usar a técnica. Este exercício ajuda os alunos a entender que a média móvel e o alisamento exponencial são realmente apenas técnicas de média e os ajuda a compreender a necessidade de explicar as tendências da previsão. Eu demonstrei o ajuste das tendências usando o suavização exponencial dupla. O suavização exponencial dupla é uma modificação do alisamento exponencial simples que lida com as tendências lineares. Boas explicações desta técnica podem ser encontradas em Wilson e Keating (2002) ou no Grupo 6 (2002). Suavização exponencial dupla onde F t1 é a previsão para o próximo período de tempo, A t é o componente de nível exponencialmente suavizado no período atual onde F t é a previsão para o período de tempo atual, D t é a demanda no período de tempo atual, E 0 1 é a constante de suavização e T t é o componente de tendência exponencialmente suavizado no período atual. Onde 0 1 é a constante de suavização para a tendência, T t-1 é a tendência no período anterior, e C t é a tendência atual. A previsão de n períodos no futuro é Depois de explicar este modelo, eu vou aos alunos. Voltar e reavaliar sua previsão usando este modelo (Figura 4). O Minitab possui essas funções e calcula os parâmetros de suavização ótimos e, com base na minimização da soma de erros quadrados, qualquer pacote de estatísticas pode ser usado. O Minitab também computará o erro médio de predição absoluta (MAPE), o desvio absoluto médio (MAD), o erro médio quadrado (MSE) e fornece 95 intervalos de previsão de confiança (veja a Figura 4). As previsões obtidas são essencialmente as mesmas que as previsões obtidas de ajustar uma linha aos dados, o uso de MIPS de 527 para dezembro de 2000 e 624 para dezembro de 2001. Figura 4. Optimal, duplo exponencial suavizado. Pergunto aos alunos se eles estão felizes com sua previsão agora ou se há algo mais que eles precisam fazer. Eu forneço um lote de erros em relação ao tempo para o modelo suavizado exponencial duplo com os erros de dezembro destacados (Figura 5). A maioria dos alunos está ciente de que as empresas de varejo têm suas maiores vendas durante a temporada de Natal (dezembro). Portanto, os alunos geralmente mencionam a sazonalidade e discutimos as formas possíveis de contabilizar a sazonalidade. Figura 5. Erros de modelo suavizado exponencial duplo. Os alunos geralmente mencionam um ajuste aditivo e multiplicativo para a sazonalidade usando todos os dados passados ​​ou apenas alguns dos dados passados. Explicações simples dessas duas técnicas podem ser encontradas em Hanke e Reitsch (1998) ou em Nau (2002). Em outras palavras, podemos comparar a previsão de dezembro de 1999 com a atual em dezembro de 1999 e, para o modelo aditivo, adicionaremos essa diferença à nossa previsão para dezembro de 2000. Ou, para o modelo multiplicativo, multiplicaríamos a previsão de dezembro de 2000 Pelo plano de dezembro de 1999, em dezembro de 1999. Eles seguem isso e discutem o uso dos dados de 1998, 1997 e 1996 para produzir um ajuste médio. Dirijo a discussão sobre as técnicas de suavização que discutimos e como podemos usar esses tipos de técnicas para criar ajustes sazonais para nossas previsões. Explico que Winter desenvolveu apenas uma técnica de suavização exponencial tripla. A técnica de Invernos basicamente adiciona (ou multiplica) um ajuste sazonal estacional ao modelo, semelhante à adição de um ajuste suavizado para uma tendência no modelo suavizado exponencial duplo. O leitor interessado pode encontrar as fórmulas de cálculo e as explicações do alisamento exponencial triplo (ou método Winters) em Minitab (1998b) ou Prins (2002a). Eu uso o Minitab para demonstrar o modelo do Winters (Figura 6) porque os cálculos para esse método são bastante complexos e a maioria dos alunos só precisa ter um entendimento geral desse tipo de técnica. Usando o modelo Winters, a previsão para dezembro de 2000 é 521 MIPS e a previsão para dezembro de 2001 é 606 MIPS. Também uso essa oportunidade para mencionar modelos ARIMA e direcionar estudantes interessados ​​para recursos como o Minitab (1998a) para mais informações sobre os modelos ARIMA. Figura 6. Método de Invernos. 3. Previsão Causal Eu forneço aos alunos um lote de uso do computador (MIPS) vs. número de lojas (Figura 7) e novamente o uso de computador previsto para dezembro de 2000 e dezembro de 2001. A Best Buy acredita que eles terão 394 lojas em Dezembro de 2000 e 445 lojas em dezembro de 2001. Figura 7. MIPS vs número de lojas. Novamente, a maioria dos alunos examina o gráfico e usa extrapolação linear gráfica para chegar à sua previsão. Eles prevêem o uso de 600 MIPS para dezembro de 2000 e 800 MIPS para dezembro de 2001. Os alunos realizam uma simples regressão linear de MIPS no número de lojas e produzem o lote residual (Figuras 8 e 9). Uso essa oportunidade para enfatizar a utilidade da parcela residual na avaliação do modelo. Destaque a forma do megafone da parcela residual (os resíduos estão aumentando conforme o número de lojas aumentam) e explicam que isso implica que uma transformação da variável dependente é indicada. Figura 8. MIPS vs número de lojas. Figura 9. MIPS vs número de lote residual de lojas. Embora eu usei o procedimento Box-Cox (Box e Cox 1964) para determinar a transformação apropriada, esta técnica está além do escopo desta classe. Portanto, eu apenas digo aos alunos que a transformação apropriada é a raiz quadrada do MIPS e menciona que existem técnicas matemáticas que podem ser usadas para determinar a transformação apropriada. Dirijo estudantes interessados ​​a Neter, Kutner, Nachtsheim e Wasserman (1996) ou Prins (2002b) para descrições desta técnica. Os alunos reestimam a equação de regressão e produzem a parcela residual dessa regressão (Figuras 10 e 11). Embora o R 2 seja ligeiramente inferior, os resíduos são agora mais distribuídos uniformemente. Figura 10. MIPS de raízes quadradas vs número de lojas. Figura 11. MIPS de raízes quadradas vs número de lote residual de lojas. Eu também tenho os alunos prever o uso do computador para dezembro de 2000 e dezembro de 2001 usando a equação ajustada. Se os alunos tiverem dificuldade em prever o MIPS, devido à transformação da raiz quadrada do MIPS, eu explico os cálculos em sala de aula. As novas previsões são 664 MIPS para dezembro de 2000 e 977 MIPS para dezembro de 2001. Novamente, um ajuste para a sazonalidade poderia ser feito. Embora, qualquer um dos ajustes de sazonalidade discutidos na seção anterior possa ser usado aqui, geralmente os alunos usam um ajuste multiplicativo médio. Isso poderia ser feito calculando o previsão real para todos os meses, calculando a média desses fatores sazonais para cada mês específico e multiplicando o fator sazonal resultante pelo valor previsto. Se isso for feito, as novas previsões para dezembro de 2000 e dezembro de 2001 são 700 MIPS e 1029 MIPS. 4. Comparação de Métodos Depois que os alunos usaram os vários métodos para prever o uso de MIPS, eu os discuto em qual método eles têm maior confiança e porque eles acreditam que esse modelo é o melhor. Vários pontos importantes podem ser feitos aqui. Primeiro, enfatizo que a previsão é uma ciência muito imperfeita e nenhuma técnica pode perfeitamente prever o futuro. A melhor técnica irá equilibrar a precisão necessária com a complexidade (ou custo) do modelo. Em segundo lugar, enfatizo o valor de traçar os dados. Um dos melhores (e mais fáceis) métodos para avaliar vários modelos é um exame visual dos dados e previsões que seria produzido pelo método em consideração. Em terceiro lugar, enfatizo a necessidade de explicar as tendências e a sazonalidade se estas estiverem presentes nos dados. As médias móveis e o alisamento exponencial são métodos de previsão adequados somente se os dados estiverem estacionários. Se houver tendências e / ou sazonais presentes, métodos mais sofisticados devem ser usados. Finalmente, discutimos a dificuldade inerente a encontrar um preditor causal para a maioria dos valores que desejamos prever em ambientes de negócios. 5. Conclusão O conjunto de dados bestbuy. dat. txt pode ser usado para demonstrar séries temporais e previsões causais. A análise do conjunto de dados leva a uma discussão e comparação dos aspectos positivos e negativos de vários métodos de previsão. 6. Obtendo os Dados O arquivo bestbuy. dat. txt contém os dados brutos. O arquivo bestbuy. txt é um arquivo de documentação contendo uma breve descrição do conjunto de dados. Apêndice - Chave para as variáveis ​​em bestbuy. dat. txtSimagem de dados remove a variação aleatória e mostra tendências e componentes cíclicos. Inércia na coleta de dados obtidos ao longo do tempo é alguma forma de variação aleatória. Existem métodos para reduzir o cancelamento do efeito devido a variação aleatória. Uma técnica freqüentemente usada na indústria é o alisamento. Esta técnica, quando corretamente aplicada, revela mais claramente a tendência subjacente, os componentes sazonais e cíclicos. Existem dois grupos distintos de métodos de suavização Métodos de média Métodos de suavização exponencial Tomar médias é a maneira mais simples de suavizar os dados Em primeiro lugar, investigaremos alguns métodos de média, como a média simples de todos os dados passados. Um gerente de um armazém quer saber o quanto um fornecedor típico entrega em unidades de 1000 dólares. Heshe toma uma amostra de 12 fornecedores, aleatoriamente, obtendo os seguintes resultados: A média calculada ou a média dos dados 10. O gerente decide usar isso como a estimativa de despesas de um fornecedor típico. Isto é uma estimativa boa ou ruim O erro quadrático médio é uma maneira de julgar o quão bom é um modelo. Calculamos o erro quadrático médio. O erro montante verdadeiro gasto menos o valor estimado. O erro ao quadrado é o erro acima, ao quadrado. O SSE é a soma dos erros quadrados. O MSE é a média dos erros quadrados. Resultados MSE, por exemplo, os resultados são: Erros de Erro e Esquadrão A estimativa 10 A questão surge: podemos usar a média para prever a renda se suspeitarmos de uma tendência. Um olhar no gráfico abaixo mostra claramente que não devemos fazer isso. A média pesa todas as observações passadas igualmente. Em resumo, afirmamos que a média ou média simples de todas as observações passadas é apenas uma estimativa útil para a previsão quando não há tendências. Se houver tendências, use diferentes estimativas que levem em consideração a tendência. A média pesa igualmente todas as observações passadas. Por exemplo, a média dos valores 3, 4, 5 é 4. Sabemos, é claro, que uma média é calculada adicionando todos os valores e dividindo a soma pelo número de valores. Outra maneira de calcular a média é adicionando cada valor dividido pelo número de valores, ou 33 43 53 1 1.3333 1.6667 4. O multiplicador 13 é chamado de peso. Em geral: barra frac suma esquerda (fração direita) x1 esquerda (fração direita) x2,. , Esquerda (fração direita) xn. O (a esquerda (fratura direita)) são os pesos e, claro, somam para 1.

No comments:

Post a Comment