Nowcasting

La statistique publique publiant des statistiques à intervalle régulier, une longue tradition de production et d’exploitation de séries temporelles précède les innovations récentes. La constance de la méthodologie, ou les harmonisations faites a posteriori - par exemple la technique de la rétropolation en comptabilité nationale - assure en théorie une forme de comparabilité et permet de considérer les productions statistiques comme des séries temporelles. Parmi les productions statistiques dont la formalisation a été la plus précoce, la comptabilité nationale tient une bonne place. Le Système de Comptabilité Nationale (SCN) est ainsi un cadre international harmonisé qui permet la construction de séries temporelles depuis l’après-guerre. La France est l’un des pays pour lesquels il est possible de remonter le plus loin dans le passé avec des séries harmonisées depuis XXXX.

En raison de délais imposés par la collecte et le traitement des données, certains indicateurs supposés donner des informations sur la situation actuelle sont publiés avec du retard et ne peuvent pas jouer leur rôle dans la prise de décision publique. C’est pourquoi la statistique publique participe aussi à la réalisation de prévisions à court terme de valeurs d’indicateurs macro-économiques. Si la production de séries statistiques récurrentes fait partie des missions de tous les instituts statistiques, l’Insee a également des missions plus spécifiques dans le domaine des séries temporelles. La construction d’indicateurs conjoncturels prospectifs, au service du débat public et de la prise de décision politique, en fait partie. A l’Insee cette mission prospective est assurée par le département de la conjoncture qui construit des indicateurs et des analyses prospectifs sur l’activité économiques des prochains trimestres. Ce département mobilise historiquement des données dont la remontée est plus rapide que celles utilisées pour la construction des agrégats macroéconomiques de la comptabilité nationale. Cependant, la collecte accrue de traces numériques a permis l’accès à des données à haute fréquence pouvant être mobilisées pour disposer de signaux sur la situation macroéconomique actuelle ou très récente.

Dans ce cadre, l’Insee, QuantCube1, Paris School of Economics2, CANDRIAM et la Société Générale ont créé une Chaire de recherche Mesures de l’économie, nowcasting ‐ au‐delà du PIB en 2021. Cette Chaire a pour objectif de travailler sur l’amélioration des prévisions économiques, en particulier grâce à la mobilisation de nouvelles sources de données. Parmi ces nouvelles sources, on trouve les actualités (Bortoli, Combes, and Renault 2018), les médias sociaux, les données satellitaires, les réseaux professionnels et les avis de consommateurs, ainsi que les données sur le commerce international, la consommation d’électricité et le transport routier (Fornaro 2020), le transport maritime, l’immobilier, l’hôtellerie et les télécommunications. Un autre objectif de la Chaire est de travailler sur la mesure de nouveaux indicateurs économiques, de bien-être ou de développement durable (au‐delà du PIB), ici encore en utilisant ces données nouvelles.

Côté technique, des modèles autorégressifs de type bridge models ou mixed-data sampling (Schumacher 2016), des dynamic factor models (Stock and Watson 2010) ou plus récemment des modèles de Deep Learning de type LSTM (Hopp 2021) sont souvent utilisés pour combiner des indicateurs de type soft comme le climat des affaires ou le sentiment des consommateurs avec des indicateurs hard comme la production industrielle, le commerce de détail, les prix de l’immobilier, etc. à différentes fréquences. La littérature fait particulièrement état de l’utilisation de deux sources de données massive permettant d’obtenir des indicateurs soft (Richardson 2018), même si bien d’autres sources ont été expertisées :

‑ les statistiques de recherches sur Internet basées sur la fréquence de recherche de mots‑clés ou de sujets spécifiques ; ‑ les médias sociaux sur Internet (Twitter).

Statistiques de recherches sur Internet

L’idée derrière l’utilisation de ces données est la suivante : les recherches sur Internet sont devenues un moyen répandu pour les agents économiques d’obtenir des informations pertinentes sur leur situation et leurs décisions économiques immédiates. Ainsi, les événements courants se reflètent dans le comportement de recherche et peuvent être corrélés à des statistiques macro-économiques. Google a mis en place des services permettant l’accès à des statistiques sur les recherches effectuées via son moteur de recherche : Google Trends.

L’apport de données de Google Trends dans le cadre de prédictions économiques a été évaluée concernant le marché du travail et le chômage, la consommation, le marché du logement, le tourisme et les anticipations d’inflation, ainsi que d’autres études macro-économiques (givordblanchet?). Dans la plupart des cas, les auteurs constatent une amélioration de la précision prédictive mais cette dernière est souvent assez limitée et n’est pas toujours robuste.

Données de réseaux sociaux

Les données de réseaux sociaux (en particulier Twitter) ont déjà été évoquées du fait de leur dimension géographique ou textuelle. Elles présentent également un aspect temporel. Les données de réseaux sociaux ont des avantages par rapport aux données de recherches sur Internet :

  • ces données sont beaucoup plus riches, avec beaucoup d’information associée à chaque observation (contenu textuel du tweet, informations sur l’utilisateur, etc.) ;
  • ces données permettent une approche stratifiée, en utilisant les informations de groupes d’utilisateurs bien définis ;
  • l’absence de préparation par les propriétaires des données (comme c’est le cas pour Google Trends), qui peut en réalité constituer un avantage ou un inconvénient.

Des données issues de Twitter ont été testées dans des études de prévisions du comportement des marchés financiers et du marché du travail (utililsation d’indicateurs dérivés de la fréquence d’utilisation des termes de perte et de recherche d’emploi dans des échantillons de tweets) entre autres.

Comme pour les données de Google Trends, les résultats sont mitigés, ce qui est naturel si on réfléchit aux biais qui limitent le potentiel de ces données. Tout d’abord, pour pouvoir récupérer les tweets pertinents concernant un certain sujet, il est nécessaire de mettre au point des bonnes méthodes de recherche sur de grands ensembles d’entrées. On constate d’ailleurs une forte sensibilité aux choix des mots-clés ou en général à la spécification de la recherche. Les jeux de données récupérés sont sujets à un fort biais de sélection : les utilisateurs de Twitter qui communiquent sur un sujet ne sont pas représentatifs de la population générale. Il faut en outre pouvoir correctement interpréter le contenu des textes, ce qui représente en général une tâche difficile (les progrès récents en NLP ont permis des fortes avancées sur ce point).

Le nowcasting à l’Insee

L’Insee a travaillé de manière particulièrement intensive sur le nowcasting au cours de la crise sanitaire liée au Covid-19, moment auquel le travail des conjoncturistes de l’Insee a été réorienté pour mesurer au mieux, à chaque instant, la chute de l’activité économique.

Pour réaliser cette évaluation, l’Insee a recueilli de l’information de la part d’entreprises ou de branches professionnelles, directement ou via des partenaires (par exemple la Banque de France ou des instituts de conjoncture). Cette information a été traitée, secteur par secteur, pour donner un ordre de grandeur de perte d’activité à hauteur d’un tiers du PIB. Pour consolider ce résultat, il a été choisi d’exploiter d’autres sources de données disponibles à haute fréquence. Ont été envisagées mais écartées plusieurs pistes : consommation d’électricité, indicateurs de pollution, Google Trends, vocabulaire utilisé dans la presse, etc. Finalement, des statistiques issues des transactions par cartes bancaires fournies par le Groupement des Cartes Bancaires CB3, ont été privilégiées.

Ces données ont permis, très tôt dans le confinement, de confirmer l’ordre de grandeur d’une chute d’un tiers pour la consommation. Le 26 mars, l’Insee publie donc une estimation de chute de PIB (en instantané par rapport à un régime normal) de 35 % et de chute de la consommation des ménages du même ordre de grandeur. Cet ordre de grandeur s’est révélé assez fiable. Il a été confirmé par deux mises à jour ultérieures et par des évaluations de la Banque de France et des instituts de conjoncture nationaux.

Des données de téléphonie mobile à haute fréquence ont également été utilisées pour mesurer les déplacements de populations au moment des confinement et déconfinement (Galiana et al. 2020). Plus d’éléments sont présentés à ce propos dans le chapitre sur les données géolocalisées.

References

Bortoli, Clément, Stéphanie Combes, and Thomas Renault. 2018. Nowcasting GDP Growth by Reading Newspapers.” Economie Et Statistique / Economics and Statistics, Big data and statistics - part 1, no. 505-506: 17–33. https://doi.org/10.24187/ecostat.2018.505d.1964.
Fornaro, Paolo. 2020. Nowcasting Industrial Production Using Uncoventional Data Sources.” ETLA Working Papers 80. The Research Institute of the Finnish Economy. https://ideas.repec.org/p/rif/wpaper/80.html.
Galiana, Lino, Milena Suarez-Castillo, François Sémécurbe, Élise Coudin, and Marie-Pierre de Bellefon. 2020. “Retour Partiel Des Mouvements de Population Avec Le déconfinement.”
Hopp, Daniel. 2021. “Economic Nowcasting with Long Short-Term Memory Artificial Neural Networks (LSTM).” arXiv. https://doi.org/10.48550/ARXIV.2106.08901.
Richardson, Pete. 2018. “Nowcasting and the Use of Big Data in Short Term Macroeconomic Forecasting: A Critical Review.” Economie Et Statistique 505 (1): 65–87. https://doi.org/10.24187/ecostat.2018.505d.1966.
Schumacher, Christian. 2016. “A Comparison of MIDAS and Bridge Equations.” International Journal of Forecasting 32 (2): 257–70. https://EconPapers.repec.org/RePEc:eee:intfor:v:32:y:2016:i:2:p:257-270.
Stock, James, and Mark Watson. 2010. “Dynamic Factor Models.” In Oxford Handbook of Economic Forecasting, edited by Michael P. Clements and David F. Henry. Oxford: Oxford University Press; Oxford University Press. http://www.economics.harvard.edu/faculty/stock/files/dfm_oup_4.pdf.

Footnotes

  1. Start‐up proposant des prévisions macroéconomiques fondées sur le Big Data et l’intelligence artificielle↩︎

  2. société internationale de gestion d’actifs↩︎

  3. Dans le domaine de la monétique, le Groupement des cartes bancaires est un groupement d’intérêt économique privé qui réunit la plupart des établissements financiers français dans le but d’assurer l’interbancarité des cartes de paiement.↩︎