David, Oui, MapReduce est destiné à fonctionner sur une grande quantité de données. Et l'idée est qu'en général, les fonctions de carte et de réduction ne devraient pas prendre en compte le nombre de cartographes ou le nombre de réducteurs qu'il ya, ce qui correspond à l'optimisation. Si vous pensez soigneusement à l'algorithme que j'ai posté, vous pouvez voir qu'il n'a pas d'importance quel mappeur obtient ce que les portions des données. Chaque enregistrement d'entrée sera disponible pour chaque opération de réduction qui en a besoin. Ndash Joe K Sep 18 12 at 22:30 Au mieux de ma compréhension de la moyenne mobile n'est pas bien des cartes au paradigme MapReduce car son calcul est essentiellement glisser la fenêtre sur les données triées, tandis que MR est le traitement des plages non intersectées de données triées. La solution que je vois est la suivante: a) Pour implémenter un partitionneur personnalisé pour pouvoir faire deux partitions différentes en deux exécutions. Dans chaque course, vos réducteurs obtiendront des gammes de données différentes et calculeront la moyenne mobile si cela est approprié. Je vais essayer d'illustrer ceci: Dans la première exécution, les données pour les réducteurs devraient être: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Ici vous allez cacluate moyenne mobile pour certains Qs. Dans la prochaine exécution vos réducteurs devraient obtenir des données comme: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Et cacluler le reste des moyennes mobiles. Ensuite, vous aurez besoin d'agréger les résultats. Idée de partitionneur personnalisé qu'il aura deux modes de fonctionnement - chaque fois se divisant en gammes égales, mais avec un certain changement. Dans un pseudocode, il ressemblera à ceci. Partition (keySHIFT) (MAXKEYnumOfPartitions) où: SHIFT sera extrait de la configuration. MAXKEY valeur maximale de la clé. Je suppose pour la simplicité qu'ils commencent par zéro. RecordReader, IMHO n'est pas une solution puisqu'elle est limitée à la division spécifique et ne peut pas glisser sur la frontière splits. Une autre solution consisterait à implémenter une logique personnalisée de fractionnement des données d'entrée (elle fait partie de InputFormat). Il peut être fait pour faire 2 diapositives différentes, semblable au partitionnement. Réponse Sep 17 12 at 8: 59Analyse des séries de temps: méthodes d'ajustement saisonnier Comment fonctionnent les méthodes de style X11 Quels sont les forfaits utilisés pour effectuer l'ajustement saisonnier X11 XIMA X12ARIMA SEATSTRAMO DEMETRA Quelles sont les techniques employées par l'ABS pour faire face à l'ajustement saisonnier Comment SEASABS Travail Comment les autres organismes statistiques traitent-ils l'ajustement saisonnier COMMENT FONCTIONNENT LES MÉTHODES DU STYLE X11 Les méthodes d'ajustement saisonnier basées sur un filtre sont souvent appelées méthodes de style X11. Ceux-ci sont basés sur la méthode de la mesure de la moyenne mobile décrite en 1931 par Fredrick R. Macaulay, du National Bureau of Economic Research aux États-Unis. La procédure comprend les étapes suivantes: 1) Estimer la tendance par une moyenne mobile 2) Supprimer la tendance en laissant les composantes saisonnières et irrégulières 3) Estimer la composante saisonnière en utilisant des moyennes mobiles pour lisser les irrégulières. La saisonnalité ne peut généralement pas être identifiée tant que la tendance n'est pas connue, mais une bonne estimation de la tendance ne peut être faite tant que la série n'est pas désaisonnalisée. Par conséquent, X11 utilise une approche itérative pour estimer les composantes d'une série temporelle. Par défaut, il suppose un modèle multiplicatif. Pour illustrer les étapes de base impliquées dans X11, considérons la décomposition d'une série chronologique mensuelle sous un modèle multiplicatif. Étape 1: Estimation initiale de la tendance Une moyenne mobile à 13 périodes symétriques (2x12) est appliquée à une série temporelle mensuelle originale, O t. Pour produire une estimation initiale de la tendance T t. La tendance est alors retirée de la série originale, pour donner une estimation des composantes saisonnières et irrégulières. Six valeurs à chaque extrémité de la série sont perdues en raison du problème de point final - seuls les filtres symétriques sont utilisés. Étape 2: Estimation préliminaire de la composante saisonnière Une estimation préliminaire de la composante saisonnière peut alors être trouvée en appliquant une moyenne mobile de 5 termes pondérés (S 3x3) aux séries S t. I t pour chaque mois séparément. Bien que ce filtre soit la valeur par défaut dans X11, l'ABS utilise 7 moyennes mobiles à terme (S 3x5) à la place. Les composantes saisonnières sont rajustées à 12 environ sur une période de 12 mois, de sorte qu'elles atteignent en moyenne 1 pour que la composante saisonnière ne change pas le niveau de la série (cela n'affecte pas la tendance). Les valeurs manquantes aux extrémités de la composante saisonnière sont remplacées par la répétition de la valeur de l'année précédente. Étape 3: Estimation préliminaire des données ajustées On trouve une approximation de la série désaisonnalisée en divisant l'estimation de la saisonnière de l'étape précédente dans la série originale: Étape 4: Une meilleure estimation de la tendance Un terme de 9, 13 ou 23 La moyenne mobile de Henderson est appliquée aux valeurs corrigées des variations saisonnières, selon la volatilité de la série (une série plus volatile exige une moyenne mobile plus longue) pour produire une estimation améliorée de la tendance. La série de tendances qui en résulte est divisée en séries originales pour donner une seconde estimation des composantes saisonnières et irrégulières. Des filtres asymétriques sont utilisés aux extrémités de la série, donc il n'y a pas de valeurs manquantes comme dans l'étape 1. Étape 5: Estimation finale de la composante saisonnière La deuxième étape est répétée pour obtenir une estimation finale de la composante saisonnière. Étape 6: Estimation finale des données ajustées Une série finale corrigée des variations saisonnières est trouvée en divisant la deuxième estimation de la saisonnière par rapport à l'étape précédente dans la série originale: Étape 7: Estimation finale de la tendance A 9, 13 ou 23 terme Henderson moving Moyenne est appliquée à l'estimation finale de la série désaisonnalisée, qui a été corrigée pour les valeurs extrêmes. Cela donne une estimation améliorée et finale de la tendance. Dans les versions plus avancées de X11 (telles que X12ARIMA et SEASABS), toute moyenne mobile Henderson de longueur impaire peut être utilisée. Étape 8: Estimation finale de la composante irrégulière Les irrégularités peuvent ensuite être estimées en divisant les estimations de tendance en données désaisonnalisées. De toute évidence, ces étapes dépendront du modèle (multiplicatif, additif et pseudo-additif) choisi dans X11. Il ya aussi de petites différences dans les étapes de X11 entre les différentes versions. Une étape supplémentaire dans l'estimation des facteurs saisonniers est d'améliorer la robustesse du processus de moyennage, en modifiant les valeurs SI pour les extrêmes. Pour de plus amples informations sur les principales étapes impliquées, reportez-vous à la section 7.2 du document d'information: Un cours d'introduction à l'analyse des séries chronologiques - livraison électronique. QUELS SONT CERTAINS EMBALLAGES UTILISÉS POUR RÉALISER L'AJUSTEMENT SAISONNIER Les ensembles d'ajustement saisonnier les plus couramment utilisés sont ceux de la famille X11. X11 a été développé par le Bureau américain du recensement et a commencé à fonctionner aux États-Unis en 1965. Il a été rapidement adopté par de nombreux organismes statistiques à travers le monde, y compris l'ABS. Il a été intégré dans un certain nombre de logiciels disponibles dans le commerce tels que SAS et STATISTICA. Il utilise des filtres pour ajuster les données saisonnièrement et estimer les composantes d'une série chronologique. La méthode X11 consiste à appliquer des moyennes mobiles symétriques à une série chronologique afin d'estimer la tendance, les composantes saisonnières et irrégulières. Cependant, à la fin de la série, il n'y a pas suffisamment de données disponibles pour utiliser les poids symétriques 8211 au problème 8216end-point8217. Par conséquent, soit on utilise des poids asymétriques, soit on extrapole les séries. La méthode X11ARIMA, développée par Statistique Canada en 1980 et mise à jour en 1988 à X11ARIMA88, utilise les modèles de boîte de vitesse automatique intégrée AutoRegressive (ARIMA) de Box Jenkins pour prolonger une série chronologique. Essentiellement, l'utilisation de la modélisation ARIMA sur la série originale permet de réduire les révisions de la série corrigée des variations saisonnières, de sorte que l'effet du problème d'extrémité est réduit. X11ARIMA88 diffère également de la méthode X11 initiale dans son traitement des valeurs extrêmes. Il peut être obtenu en communiquant avec Statistique Canada. À la fin des années 1990, le Bureau du recensement des États-Unis a publié X12ARIMA. Il utilise des modèles regARIMA (modèles de régression avec des erreurs ARIMA) pour permettre à l'utilisateur d'étendre la série avec les prévisions et de pré-ajuster la série pour les effets extérieurs et les effets de calendrier avant l'ajustement saisonnier. X12ARIMA peut être obtenu auprès du Bureau il est disponible gratuitement et peut être téléchargé à partir de census. govsrdwwwx12a. Développé par Victor Gomez et Augustn Maravall, SEATS (Extraction de signaux dans les séries temporelles ARIMA) est un programme qui permet d'estimer et de prévoir la tendance, les composantes saisonnières et irrégulières d'une série chronologique utilisant des techniques d'extraction de signaux appliquées aux modèles ARIMA. TRAMO (Régression chronologique avec ARIMA Noise, Missing Observations et Outliers) est un programme complémentaire pour l'estimation et la prévision de modèles de régression avec des erreurs ARIMA et des valeurs manquantes. Il est utilisé pour pré-ajuster une série, qui sera alors désaisonnalisé par les sièges. Pour télécharger librement les deux programmes depuis Internet, contactez la Banque d'Espagne. Bde. eshomee. htm Eurostat a mis l'accent sur deux méthodes d'ajustement saisonnier: TramoSeats et X12Arima. Des versions de ces programmes ont été mises en œuvre dans une interface unique, appelée quotDEMETRAquot. Cela facilite l'application de ces techniques à des séries chronologiques à grande échelle. DEMETRA contient deux modules principaux: l'ajustement saisonnier et l'estimation de tendance avec une procédure automatisée (par exemple pour les utilisateurs inexpérimentés ou pour des ensembles de séries chronologiques à grande échelle) et une procédure conviviale pour l'analyse détaillée des séries chronologiques simples. Il peut être téléchargé à partir de forum. europa. eu. intircdsiseurosaminfodatademetra. htm. QUELLES SONT LES TECHNIQUES EMPLOYÉES PAR L'ABS DE TRAITER L'AJUSTEMENT SAISONNIER Le principal outil utilisé par le Bureau australien de statistique est SEASABS (analyse SEASonal, normes ABS). SEASABS est un logiciel d'ajustement saisonnier avec un système de traitement de base basé sur X11 et X12ARIMA. SEASABS est un système basé sur la connaissance qui peut aider les analystes de séries temporelles à prendre des jugements appropriés et corrects dans l'analyse d'une série chronologique. SEASABS fait partie du système d'ajustement saisonnier ABS. D'autres composantes comprennent l'ABSDB (entrepôt d'information ABS) et le FAME (environnement de prévision, d'analyse et de modélisation, utilisé pour stocker et manipuler des données de séries chronologiques). SEASABS remplit quatre fonctions principales: Révision des données Réanalyses saisonnières des séries chronologiques Recherche des séries temporelles Maintenance des connaissances en séries chronologiques SEASABS permet à la fois les experts et les clients d'utiliser la méthode X11 (qui a été considérablement améliorée par l'ABS). Cela signifie qu'un utilisateur n'a pas besoin de connaissances détaillées sur le package X11 pour ajuster de façon appropriée une série chronologique. Une interface intelligente guide les utilisateurs à travers le processus d'analyse saisonnière, en faisant des choix appropriés de paramètres et de méthodes d'ajustement avec peu ou pas de guidage nécessaire sur la partie utilisateurs. Le processus d'itération de base impliqué dans SEASABS est: 1) 2) Testez et supprimez les pointes importantes dans les données. 3) Testez et corrigez les ruptures de tendance. 4) Tester et corriger les valeurs extrêmes pour des fins d'ajustement saisonnier. 5) Estimer tout effet de jour de bourse présent. 6) Insérer ou modifier les corrections de vacances en mouvement. 7) Vérifiez les moyennes mobiles (moyennes mobiles de tendance, puis moyennes mobiles saisonnières). 8) Lancer X11. 9) Finaliser le réglage. SEASABS conserve les enregistrements de l'analyse précédente d'une série de sorte qu'il peut comparer les diagnostics X11 au fil du temps et sait quels paramètres ont conduit à l'ajustement acceptable à la dernière analyse. Il identifie et corrige les ruptures de tendance et saisonnières ainsi que des valeurs extrêmes, insère des facteurs de jour de négociation si nécessaire et permet de modifier les corrections de vacances. SEASABS est offert gratuitement à d'autres organismes gouvernementaux. Contactez time. series. analysisabs. gov. au pour plus de détails. COMMENT D'AUTRES ORGANISMES STATISTIQUES TRAITENT-ILS D'AJUSTEMENT SAISONNIEN Statistique Nouvelle-Zélande utilise X12-ARIMA, mais n'utilise pas les capacités ARIMA du paquet. Office of National Statistics, UK utilise X11ARIMA88 Statistique Canada utilise X11-ARIMA88 US Bureau of the Census utilise X12-ARIMA Eurostat utilise SEATSTRAMO Cette page a été publiée pour la première fois le 14 novembre 2005, dernière mise à jour le 10 septembre 2008 Algorithme binaire de X-11 La procédure de décomposition X - Est basé sur un algorithme d'ajustement saisonnier simple à cinq étapes. Selon cet algorithme, pour décomposer les séries temporelles, l'utilisateur doit: dériver une estimation initiale du cycle tendanciel en appliquant une moyenne mobile aux données brutes soustraire cette estimation des données brutes pour obtenir une estimation initiale de l'irrégularité saisonnière (SI ) Et d'appliquer une moyenne mobile aux IS pour chaque type de trimestre séparément pour obtenir des estimations initiales de la composante saisonnière soustraire les facteurs saisonniers initiaux des données brutes pour obtenir une estimation initiale de la série corrigée des variations saisonnières Appliquer une moyenne mobile de Henderson pour obtenir une deuxième estimation du cycle tendanciel soustraire la deuxième estimation du cycle tendanciel des données brutes pour obtenir une deuxième estimation des IS et appliquer une moyenne mobile pour chaque type de trimestre séparément pour obtenir Les estimations finales de la composante saisonnière soustraient les facteurs saisonniers des données brutes pour obtenir une estimation finale des séries corrigées des variations saisonnières et appliquent une moyenne mobile de Henderson pour obtenir une estimation finale du cycle tendanciel. En savoir plus sur la façon dont cet algorithme est appliqué à la méthode X-11. L'algorithme de base de la méthode X-11 se compose de huit étapes et correspond à l'utilisation de l'algorithme simple deux fois, chaging les moyennes mobiles à chaque fois. Cet algorithme de base en huit étapes est utilisé dans la partie B, C et D de X-11. Il estime les composantes deux fois. Les marques (1) et (2) sont utilisées pour les distinguer les unes des autres. La description ci-dessous montre comment l'algorithme fonctionne dans la partie B. Pour les parties C et D, il fonctionne de la même manière. La première estimation du cycle tendanciel est obtenue en appliquant la moyenne mobile à la série chronologique initiale: La moyenne mobile utilisée ici est une moyenne mobile de 2 x 12, des coefficients qui Reproduit le point central d'une tendance linéaire, élimine la saisonnalité constante de l'ordre-12 et minimise la variance de la composante irrégulière. La sortie (cycle de tendance) est stockée dans le tableau B2. Étape 2: Estimation de la composante saisonnière irrégulière: La première estimation de la composante saisonnière irrégulière est obtenue en supprimant le cycle tendanciel de la série chronologique: Les résultats sont présentés dans le tableau B3. Étape 3: Estimation de la composante saisonnière par moyenne mobile 3x3 sur chaque mois: L'estimation est effectuée sur la base de la composante saisonnière irrégulière de l'étape précédente corrigée avec les valeurs extrêmes. La moyenne mobile utilisée ici est une moyenne mobile de 3 X 3 sur 5 termes, de coefficients. Le filtre est appliqué aux ratios saisonniers-irréguliers pour chaque période, séparément, sur 5 ans. Ensuite, les facteurs saisonniers sont normalisés à l'aide d'une moyenne mobile à 12 mois centrée, de sorte que les effets saisonniers sur l'ensemble de la période de 12 mois sont approximativement annulés. Le résultat de cette étape est retenu dans le tableau B5. Étape 4: Estimation de la série désaisonnalisée: L'estimation de la série désaisonnalisée est effectuée en supprimant de la série de départ (Tableau B1) la première estimation de la composante saisonnière (Tableau B5): Étape 5: Estimation du cycle de tendance par Moyenne mobile Henderson à 13 termes: La deuxième estimation du cycle tendanciel (Tableau B7) est obtenue à partir des séries corrigées des variations saisonnières (Tableau B6) lissées à l'aide du filtre Henderson à 13 termes. Étape 6: Estimation de la composante saisonnière-irrégulière: Une estimation de la composante saisonnière irrégulière est obtenue en soustrayant la forme tendance-cycle de la série temporelle initiale. Les résultats sont enregistrés dans le Tableau B8. Étape 7: Estimation de la composante saisonnière par moyenne mobile 3x5 sur chaque mois: La deuxième estimation de la composante saisonnière irrégulière est obtenue en supprimant le cycle tendanciel des séries chronologiques: La moyenne mobile utilisée ici est une moyenne mobile de 3x5 Plus de 7 termes, de coefficients et conserve des tendances linéaires. Les coefficients sont alors normalisés de telle sorte que leur somme sur l'ensemble de la période de 12 mois est approximativement annulée. Le résultat de cette étape est sauvegardé dans le tableau B10. Étape 8: Estimation de la série désaisonnalisée: L'estimation de la série corrigée des variations saisonnières est effectuée en supprimant de la série de départ (Tableau B1) la deuxième estimation de la composante saisonnière (Tableau B10): Le résultat de cette étape est le Tableau B11. La difficulté réside donc dans le choix des moyennes mobiles utilisées pour l'estimation du cycle tendanciel aux étapes 1 et 5 d'une part et pour l'estimation de la composante saisonnière aux étapes 3 et 5. Le cycle de tendance nécessite la sélection du filtre Henderson approprié.
No comments:
Post a Comment