A first article we publish here comes from Pedro Diaz Muñoz, former director of Eurostat. This article can be related to the ongoing discussion at the website of the Statistical Journal of the International Association of Official Statistics (IAOS). For those fond of acronyms it takes places at the JSIAOS platform. IAOS (https://officialstatistics.com/) is an association of the International Statistical Institute (ISI https://www.isi-web.org). You can follow the discussion along this link: https://officialstatistics.com/news-blog/crises-politics-and-statistics. I wish you a pleasant reading of this or other ongoing discussions.

Nico Weydert – President LSS

The Importance of Figures

Article by Pedro Diaz Muñoz, member of LSS and former director of Eurostat

21 April 2020

During my long career as statistician, I have frequently claimed that the media didn’t pay sufficient importance to our figures. It is nowadays, at last, when figures come to first pages of journals and open television news, they are the centre of governments’ press conferences and even Prime Ministers’ speeches enchain one number after the other.

These are the quantities of infected, dead and recovered from COVID-19. However, these cannot be considered statistical information, since they do not comply with the standards and methodologies that would allow to compare between countries, or even regions; visualize trends, and feed into models to predict, under different scenarios, its future evolution. Indeed, the counting criteria are not transparent, and subject to changes that produce anomalies in the series; the universe from which the values of these three categories are obtained is not the total population, but the subset of those who have been analysed by one of the existing variety of tests, each of them measuring something different and with varied reliability; on weekends, just a part of new cases are reported, thus shrinking those days totals and correspondingly swelling those of the couple of days after; it is not clear if all deaths are properly added, or those who were not tested or died just “with” the virus, but not “from” the virus are omitted; last but not least, a proper international harmonization is missing.

It is nevertheless interesting to note that, despite these major shortcomings, this information somehow serves the current purposes of guessing the evolution of the epidemy and drawing rough conclusions as to whether its explosive progression starts to decrease. And it is so because it precisely focuses on the subpopulation that most interests us at this moment: those seriously ill or at least with clear symptoms. In the current stage of the crisis, where the overwhelming priorities are to stop the disease  escalation, try to offer personal information to those attained, and ensure that health -and unfortunately also funeral – services can cope with the pressure without collapse, these are the key indicators. Albeit, as it will be explained later, they could have been more complete and solid.

But, as transition to a new phase, where a good balance must be struck between keeping the disease under control (though not eradicated), with “manageable” quantities of those seriously ill or dead, while avoiding a planet size economic collapse that could cast mankind into penury, many more indicators are urgently needed. The dramatic choices to be made must be based on a wealth of data currently lacking or not publicly available.

Very promising initiatives are the random survey currently planned by several EU countries – in Luxembourg will address a panel of 1500 individuals. If these operations are organized with clear objectives and backed by a solid methodology, there is an opportunity to have currently missing data about evolution of immunity of those recovered and of those positive without symptoms. Essential information for a gradual move away from lockdown, on one hand protecting eventual sectors of population not yet infected that could be fatally exposed if in contact with the virus; and on the other, assessing whether the community is approaching the immunity level that could hamper progress of the pandemic.

In order to better manage eventual new case peaks, the current system of indicators should be improved, addressing issues such as harmonization of concepts and methods, transparency and rapidity and exhaustivity of the counts. For all those quality aspects EU or international recommendations should be followed and the expertise of official statisticians should be mobilized hereon.

Furthermore, the detail should be completed with supply data such as hospital beds and places ICU, materials and equipment, as well as saturation levels of hospitals and medical personnel.

In countries where the health system is regionally distributed and public and private facilities are complementary, data that will monitor the coordination of the different levels of responsibility will be needed. To be ready to face eventual new peaks, a quantitative knowledge that can permit to allocate cases to sectors or regions where there is available capacity is necessary and its absence unacceptable.

Assisting on the transformation of the economic activities, from the transition period to the end of the epidemy, requires a knowledge of those sectors and professional categories where the risk of contagion is greater and those where remote work could be made extensive. Yearly business surveys, under specific regulations in the EU, could provide a first quantitative basis although it should be complemented with other sources.

Many additional households will be -some already are – in clear risk of poverty. Measuring the spread of the damage to vulnerable families should provide valuable information for the design of social programmes which could efficiently help those in need, without seriously threatening the system’s sustainability.

Displacements are vectors for spreading the disease and it is thus very important to know them in detail. INE Spain publishes daily figures at municipal level (and down to district level in larger cities). These are produced by aggregation of anonymised GSM signals. It is worth noting that this project, that will now provide a valuable insight for the post lockdown phase, was contested by some spheres of society for privacy protection reasons. Now, this quite exhaustive information could be complemented by synthesis metrics and graphics to better visualize the key features and their relation with the disease propagation.

Once this huge storm is over, a reality will emerge that may differ in many aspects to the one we enjoyed just one month ago. Statistical systems will have to adapt to serve a new society whose characteristics we can only guess now. This crisis of huge dimension has caught official statistics, as many other professions, unprepared; thus, unable to provide rapidly the answers authorities needed to decide on a solid basis. Hence, policies have been supported by those data available, notwithstanding their shortcomings, to take decisions of unprecedented importance.

Now, it is the time for statisticians to play a key role. For this purpose, they will be obliged to question methodologies and principles so far unquestionable, but that nowadays do not have the speed to adapt, amongst other features, that is expected.  

In parallel it corresponds to institutions to take a significant step towards a digitalization of their processes that, apart from increasing their efficiency, will allow for a very rapid production of the quantitative information essential in situation like the one we are suffering today.

And to society as a whole to acknowledge that increasingly it will have to rely on uncomplete information, whose quality is not solidly stated, perhaps not even measurable. From the purely statistical perspective, an opportunity opens now that should be seized. It would be regrettable that all the collective knowledge potential and management capacity enshrined in our profession, is not put to the service of society in times when it is so much needed. But to that end, programmes, processes and methods will have to be reinvented (I mention as very simple instance electronic capture of digitised data as sole information source). Most industrial and institutional sectors will have to launch gigantic transformations in order to survive; we cannot lag behind.

La statistique – bridée par SARS-CoV-2 ?

Weydert Nico – Président de la Société Luxembourgeoise de Statistique (SLS)

3 mai 2020

Cet article reflète les vues de l’auteur et n’engage pas la SLS

Voilà environ deux mois que le virus a franchi les frontières du Luxembourg. Après une phase de croissance exponentielle freinée par le confinement, les yeux sont maintenant braqués sur le déconfinement, peut-être en arrière-pensée, les vacances d’été. Pour la suite, on l’ignore, on espère que non, il y a la crainte d’une deuxième vague à l’approche de l’automne et de l’hiver. Beaucoup d’efforts personnels et collectifs ont été prodigués pour contenir la pandémie. Des efforts à bien des niveaux, au niveau médical, au niveau des soins, de la logistique et on pourrait continuer l’énumération d’une liste forte longue. La pandémie a aussi frappé très fort, davantage ceux proche ou en-dessous du seuil de pauvreté, mais aussi bon nombre de personnes ne se trouvant pas dans une situation de salariés, à savoir des indépendants, des gérants de petits magasins, de restaurants, ou des actifs dans la culture etc. Voilà aussi des aspects à ne point négliger en tant que statisticien dans le contexte de la crise sanitaire actuelle.

Maintenant que la propagation du virus s’est ralentie, l’heure semble venue pour tirer un premier bilan provisoire du rôle de la statistique publique dans la crise sanitaire. A travers la publication de statistiques journalières, elle a été, qu’elle ne veuille ou non au centre de l’attention publique. Le rôle de la SLS n’est pas de se substituer à la statistique publique, mais de la promouvoir point de vue utilisation et méthodologie, et de contribuer à une meilleure culture statistique. Si nous dressons aujourd’hui un premier bilan quelque peu critique, nous sommes conscient que pour d’aucuns la culture statistique ne pouvait pas nécessairement être le premier de leurs soucis. Dans le bulletin d’information du mois d’avril de la SLS, il me semblait opportun de constater que la statistique avait été prise au dépourvue. Et non seulement au Luxembourg, avouons-le.

Côté statistique officielle -réaction rapide , mais partielle

Avant d’y venir, commençons d’abord à balayer devant notre propre porte. A la SLS, nous avons dû constater que notre propre site d’information de la Société (luxstat.lu) n’était techniquement pas assez réactif. Un membre de la Société, affilié au STATEC, a rapidement mis en route un site encore quelque peu provisoire, mais pouvant rapidement présenter graphiques, commentaires et opinions. Ce n’était point parfait, mais en l’absence de données cumulées officielles, cela donnait déjà une autre vue que les données journalières communiquées par le Ministère de la Santé. Il y avait d’autres initiatives allant dans le même sens, et parmi elles, il y a lieu de relever les travaux du directeur du Lycée classique de Diekirch, Marcel Kramer, qui en plus s’essayait à des modélisations sur sa plateforme facebook.

La statistique publique luxembourgeoise est régie par une loi, celle du 10 juillet 2011 portant organisation de l’Institut national de la statistique et des études économiques, donc du STATEC, mais aussi du système statistique luxembourgeois. Le système, en tant que tel, a visiblement aussi été pris de court. Certes, le STATEC, a rapidement publié des analyses sur l’impact économique probable du coronavirus (9 mars 2020). Il a aussi contribué aux travaux du groupe de travail 7 de la Task Force Research, on y reviendra. Mais il ne semble pas que le STATEC était en mesure de prendre le « lead » en matière de méthodologie et d’information/communication statistique.

Le STATEC a eu l’excellente idée de constituer un « dossier coronavirus » visible sur la première page du Portail statistique. Ce dossier, qui a évolué au fil des semaines, est en général bien fait et fournit des liens vers bon nombre de sites et de documents intéressants. Mais il ne réussit pas, en tant que gestionnaire du Portail statistique, à fédérer, à centraliser les données, pourtant publiques, et des informations statistiques élémentaires, au sens de statistiques descriptives liées au Covid-19. On pouvait avoir l’impression qu’au sein du système il y avait un embargo sur certaines statistiques descriptives, p.ex. sur la distribution des personnes testées positives par sexe et par classe d’âge. Un peu comme si la proclamation de l’état d’urgence avait bridé les missions du système statistique.

Pendant longtemps, grosso modo jusqu’au 24 avril 2020, le STATEC était un des seuls à publier quelques données récapitulatives, certes à côté d’une présentation fort originale d’une courbe logistique. Fin avril d’autres données officielles du Ministère de la Santé ont fait leur apparition sous forme de tableaux sur le site « Open Data ». Il est regrettable de devoir constater que les données publiées par le STATEC et par le Ministère de la Santé ne sont pas identiques. Les différences sont certes minimes, mais néanmoins inadmissibles dans un système de statistique publique. Soit dit en passant que les décimales pour les taux d’accroissement ne sont pas affichées sur le graphique prémentionné.

Les statistiques du Ministère de la Santé

La LSS s’est aussi adressée par la voix de son président au Ministère de la Santé pour déplorer le peu de données et de statistiques descriptives publiées. Le Ministère répondait que de tels projets étaient en voie de réalisation et la présentation de statistiques dans le « Point de situation » s’est effectivement améliorée à la fin du mois d’avril. On comprend tout à fait que dans les priorités du Ministère de la Santé, la présentation vers l’extérieur de statistiques descriptives, n’occupait point une place de choix. On aurait néanmoins pu imaginer la publication de distribution des personnes testées positives par exemple par classe d’âge et par sexe, ou par canton. Dans notre lettre à Madame la Ministre, nous avions aussi évoqué la stratégie Open-Data poursuivie par le Gouvernement en place. Et effectivement, à la fin du mois d’avril un premier tableau fut publié sur le site précité. Il est toutefois regrettable que les informations publiées au jour le jour ne soient pas reprises dans les données du tableau. Ainsi, les informations journalières distinguent entre résidents et non-résidents, mais cette distinction est absente du tableau. De plus, on cherche en vain, à l’exception du premier jour de publication, une référence aux données publiées sur data-public.lu sur le site du Ministère, respectivement du Gouvernement.

Si l’on peut déplorer l’absence de certaines statistiques élémentaires, il faut néanmoins reconnaître que les données à la base des statistiques publiées (ou non), ont dû être centralisées, harmonisées et unifiées en l’absence de canaux de collecte établis. Il fallait en effet recueillir des données multi-sources, en provenance d’hôpitaux, de laboratoires et de maisons de retraite, pour nommer que ceux-là. Suivre au jour le jour le nombre de personnes testées positives ou même malheureusement décédées, en l’absence de circuits de collecte éprouvés et permettant d’identifier indubitablement les personnes est une tâche compliquée et évidemment sujette à des erreurs quasi inévitables. En ce sens les données journalières auraient peut-être gagné à être présentées comme provisoires, sujettes à révision, vers le haut ou vers le bas. De telles présentations ont eu lieu dans certains pays, comme par exemple en Suisse. Ceci explique peut-être aussi les différences épinglées ci-avant entre le STATEC et le Ministère de la Santé. Dans la phase de la croissance exponentielle de la propagation du virus, il y a évidemment une grande pression du public et surtout de la presse avide pour commenter les derniers chiffres et fixer l’attention du public sur les chiffres absolus, plutôt que sur une vue plus large en termes de taux de croissance. Alors que d’autres, comme Marcel Kramer et ensuite la LSS ont commencé à présenter des graphiques en moyenne mobile, lissant les aléas journaliers. Les statistiques sont en général entachées d’une certaine marge d’erreur et on ne peut le répéter suffisamment souvent. Il vaut aussi parfois mieux retarder un peu la publication de statistiques dont la qualité n’est pas encore suffisamment établie. Aux statisticiens de service d’expliquer cet état de choses aux journalistes.

Dans un article du Luxemburger Wort (le 25/26 avril p.3[1]) on pouvait lire que la Conseil de presse Luxembourg se plaignait que les statistiques, bien qu’améliorées n’étaient guère complètes. En partie le Conseil de presse a raison. Néanmoins ses revendications semblent aller quelque peu loin dans une situation sanitaire où il y a encore beaucoup plus d’incertitudes que de certitudes et qu’il faudra encore patienter pour attendre les résultats de recherches en cours. Même si la période semble propice aux personnes qui se croient épidémiologues en herbe.

La Task Force Research et Covid-19

Dans le bulletin d’information du mois d’avril de la LSS, nous avons salué la constitution de cette Task Force et de son programme de travail. La statistique officielle s’est en partie effacée, respectivement noyée, dans cette Task Force mise en place par les instituts publics de recherche et l’Université du Luxembourg avec le soutien du FNR. Assez curieusement le dossier corona du site du STATEC ne fait aucune référence à cette Task Force à laquelle il contribue toutefois. Bon nombre de projets exécutés dans ce contexte ne conduisent évidemment pas à des résultats rapides et bon nombre de projets de recherche sont évidemment destinés à un public scientifique restreint. On pourrait néanmoins s’attendre aussi à ce niveau à une meilleure politique de communication du site de la Task Force. Des premières publications, qu’on peut considérer plus grand public n’y sont pas référencées, comme le document « Economic Effects of Covid-19 Outbreak ». Il faut déjà aller sur le site du LISER pour le trouver et le consulter. Le document reflète les travaux du Work-package WP07 : Gauging Economic Impact of the Covid-19 Outbreak  de la Task Force. Il en va de même des projections de l’Université du Luxembourg publiées sur le site data-public.lu . On peut supposer que ces projections trouvent leur origine dans le WP 06 Statistical Pandemic Projections de la Task Force. Ces données « brutes » ont été retravaillées de manière graphique et publiée sur le site (Vizualisations of the Covid-19 midterm projections from the University of Luxembourg par Ben Elsen). Il faut toutefois regretter que ces données brutes ne soient point accompagnées d’une documentation, d’une méthodologie, expliquant les modèles statistiques/mathématiques sous-jacents. Point de vue scientifique, on pourrait s’attendre à plus d’informations, par exemple sur le choix des paramètres y utilisés, même si la finalité d’un site « open data » n’est pas orientée explications méthodologiques ou vulgarisation de données statistiques. Dans ce cas-là, il existe sans doute d’autres plateformes.

La Task Force Research endosse aussi la responsabilité de l’étude CON-VINCE, une étude essayant d’évaluer la dynamique de la propagation de Covid-19 dans la population du Luxembourg (Luxembourgish population ?). L’auteur du présent article ne met pas en doute l’utilité d’une telle étude, car il y participe. Néanmoins les choix statistiques pour cette étude pourraient être mieux documentés. L’étude affirme s’appuyer sur un panel de 1500 volontaires statistiquement représentatif. On aimerait tout de même savoir comment un panel de volontaires peut être statistiquement représentatif. On nous dit que le panel doit refléter de manière exacte la composition de la population du Luxembourg (Luxembourgish population) en termes d’âge de sexe et de géographie afin d’éviter des résultats biaisés et statistiquement inexacts. Il n’est pas a priori certain que ces trois variables soient les meilleures pour l’étude en question. On aurait peut-être aussi pu prendre en compte par exemple la profession ou le lieu de travail comme critère de sélection, mais alors on aurait dû s’appuyer sur une autre base de sondage. La taille annoncée du panel risque de fondre au fil du temps, car les participants peuvent se désister sans autre raison. En ce sens il n’était point étonnant d’entendre la Ministre de la Santé parler d’un panel de 1800 personnes. On lit aussi sur le site de la Task Force que LIH va directement contacter les candidats éligibles. On y lit aussi le contraire (sur le « flyer » encore qu’il faille déjà prendre la loupe pour le constater) : LIH, le coordinateur de l’étude ne contactera pas directement les candidats pour participer à l’étude. Cette tâche a été attribuée à TNS-ILRES. Que TNS-ILRES soit bien outillé pour exécuter l’enquête et collecter les données pour l’étude ne fait pas de doute. Reste néanmoins à savoir si le choix d’un panel basé sur un échantillon systématique, au lieu par exemple d’un échantillon aléatoire stratifié, a été basé sur des considérations de vitesse, de coût ou sur des considérations statistiques.

Mais les considérations et les théories établies sur l’échantillonnage semblent encore avoir du chemin à parcourir à Luxembourg. A l’Université du Luxembourg on s’intéresse ainsi aux effets psychologiques de la distanciation sociale, respectivement sur la santé mentale lors de Covid-19. Là encore on peut s’interroger si la méthode de l‘échantillonnage choisie : une participation volontaire, comme cela semble être une pratique courante en psychologie. Il est permis de douter que cela conduira à un échantillon aléatoire et finalement à des résultats représentatifs.

En guise de conclusion

La crise sanitaire actuelle a bien pris le système statistique au dépourvu. Les insuffisances épinglées auparavant doivent inciter les statisticiens des différents domaines à une meilleure collaboration future. Dans le domaine de la statistique publique, la mise en œuvre de la loi du 10 juillet 2011 portant organisation de l’Institut national de la statistique et des études économiques et du système statistique luxembourgeois doit être approfondie. Notamment à travers le Comité des statistiques publiques, respectivement par un groupe de travail supplémentaire au sein de ce Comité. Un renforcement du Portail statistique reprenant l’ensemble des statistiques publiques et permettant la référence aux méthodologies et aux explications permettrait sans doute un accès plus aisé à l’information statistique. Ceci n’empêche évidemment point la mise à disposition de données sur le site data-public.lu.

Le chemin est tracé. Aussi quant aux synergies avec les instituts de recherche. Il faudra continuer à maintenir le cap et améliorer la politique de communication statistique.

[1] Probleme hat der Presserat auch in Bezug auf die Statistiken zu den Infektionszahlen und Todesfällen, die inzwischen etwas informativer sind, aber immer noch unvollständig. Es gibt beispielsweise keine Informationen über das Profil der Verstorbenen: Hatten sie Vorerkrankungen? Wurden sie beatmet? Wo sind sie gestorben? Haben sie eine Intensivbehandlung abgelehnt? Sind sie am oder mit dem Virus gestorben? – Le Conseil de presse a également des problèmes avec les statistiques sur les chiffres d’infection et les décès, qui sont maintenant un peu plus informatives, mais encore incomplètes. Par exemple, il n’y a aucune information sur le profil des défunts : Ont-ils eu des maladies antérieures ? Ont-ils dû recevoir une respiration artificielle ? Où sont-ils morts ? Ont-ils refusé des soins intensifs ? Sont-ils morts à cause du virus ou en présence du virus ?

Comments to SLS opinion from Nico Weydert

Pedro Diaz Muñoz – member of LSS and former director of Eurostat

Many thanks to Nico for this opinion, which is indeed very pertinent and timely. It is also my feeling that the opportunity to give value to data, in a moment when data is so important, should be seized. I therefore, would like to stress my agreement with some of the points made in the text.

Concerning the public visibility of existing data, I fully agree that something more could still be done. The “dossier coronavirus” in STATEC web site, while very complete in what concerns external links provided, lacks however some text guiding users to those pages were most relevant information could be found. Further, the graph presented in that page, referring to daily cases and deaths in Luxembourg has several shortcomings that hamper its readability. Namely, the strange choice of the vertical axis for time and, mainly, the lack of other information such as recoveries, hospitalizations or ICU patients that could have given a more complete picture. As Nico mentions, the inclusion of some breakdowns according to gender or age would have also added much value to the usefulness of the “dossier”.

It can be understood that in those difficult times when the disease mounted, other concerns were absolute priority and the successful evolution in Luxembourg prove that they were efficiently tackled. But perhaps with a reasonable effort, a flow of information, and some further processing to make it better and more visibly available to the general public, could have been setup. Perhaps this could still be done.

Turning to the new studies of the Covid TF, in particular the CON-VINCE, I was indeed surprised that STATEC didn’t provide the stratified sample design, and the use of a systematic panel instead. I therefore share the concerns expressed in the paper as to the representativity of the sample to gross up values to the total population. Perhaps, if new opportunities of random studies emerge in the future, this issue could be revisited.

I would finally mention the new initiative about testing the whole population, of which not much information is available. This could provide a wealth of data to be exploited, of course respecting all confidentiality provisions. Again, society could benefit from this to extend knowledge about a disease that is so much impacting all of us.

In summary, Luxembourg has extremely well responded to the challenge of Covid-19, and I am personally fortunate to pass, with my family, this difficult period in this country. There is now the opportunity to provide better and more readable data to citizens, this is even more important in a country where a large number of residents are not born here and have thus limited access to non-official information channels. This is the time when progress on this regard could be made.