Before Numbeo was created (April 2009), no other free database about a cost of living (with structured data and indices) existed.
Other cost of living reports had the data behind their research hidden or expensive to purchase.
Their research was very limited in the number of cities included. It is difficult to scale up without a significant increase in expenses since they relied on manually collected data.
Also, there were no insight about the error rate in their manually collected data.
Manual collection of cost of living data is error prone:
- there is a different price during the year - price oscillation (i.e. cheaper fruits and vegetables during the summer; or high fluctuation of potato price because of lack of storage and high moisture)
- in different supermarkets, bars and restaurants prices of items are usually different
- there are different types of milk, cheese, etc. with different prices even in the same supermarket
- the country could face temporary shortages of a given item which could drive the price temporary up (i.e. rice shortages)
- if only one person collects the price, possibility of human error is higher
Reports available before the year 2009 usually include just an index, which is not enough for
a personal estimate since a person is not an average person due to different lifestyles such as:
- the size of a family (number of dependent persons)
- dining out or eating at home
- renting or owning an apartment
- driving or using a public transport
- drinking alcoholic drinks and smoking or not
Other available cost of living sources didn't provide a systematic way to extract custom indices. Numbeo provides a world-class software
for extracting various economic indicators for free (i.e. using our "Basket of goods and services" tool).
Before the Great Recession (World Economic Crysis of 2007-2009) price of properties worldwide tended to look like a crazy to
the founder of this website. The price of a small apartment in a third world country he currently lives in was same as 310 ultra
modern TFT monitors at that time. The wild speculation in property prices suggested that people really needed a tool for a
speculation or to turn their speculation down.
So, that's how Numbeo was born. Numbeo:
- provides free information about prices
- allows a person to estimate their own expenses
- uses the wisdom of the crowd to get as reliable data as possible
- provides a system for various systematic research on our big dataset
Methodology
Collecting and processing data
To collect data Numbeo relies on user inputs and manually collected data from authoritative sources
(websites of supermarkets, taxi company websites, governmental institutions, newspaper articles, other surveys, etc.).
Manually collected data from established sources are reentered twice per year.
We perform automatic and semi-automatic filters to filter out noise data. The simplest filter is working as follows: if, for a particular price in a city,
values are 5, 6, 20 and 4 in a recent time span, the value 20 is discarded as a noise (as it value is more than 4 times than the average value)
Another filter discards ¼ (one quarter) of lowest and highest inputs as borderline cases have a higher probability to be incorrect. Out of remaining entries,
the lowest, highest and mean value are calculated and displayed.
There are more sophisticated filters in use. The filters are performing better when there are more inputs.
One of the advanced filters tries to eliminate bad training data. It digs into discarded data (spam data) and if notices irregularities, it moves them back into the calculation.
To summarize our filters, Numbeo uses heuristic technology to get the data quality. Using the existing data Numbeo periodically discards data which most likely are
incorrect statistically.
Numbeo also archives the values of old data (our default data deprecation policy is 12 months, although we use data up to 18 months old
when we don't have fresh data and indicators suggest that inflation is low in a particular country). The values of old data are preserved
to be used for historical purposes.
Aggregating data for a country
To aggregate data for a country, we use all entries (for all cities) to calculate country average data. Note that it is different from the aggregating calculated data for
all cities in that country (for which we have data in the database). Due to underlying internal formulas used (discarding top and bottom 25% of the data before calculating display values),
sometimes low and high price of an item in one city might look not on par with low and high values of that country. That anomaly appears due to underlying formulas used.
So, in calculations for the country, we are weighting a city by the number of contributors. Since they are the higher number of inputs for a country than for a city,
data showed on a country level, in general, contains lower noise than data showed on a city level.
Currencies
We do use multiple currency feeds including European Central Bank feed to update our internal currency exchange rates almost every hour.
For each entry of the contributors, we do save in our database the value in EUR, USD and currency of the input (using current exchange rate).
When calculating averages, we do reuse one of those entries based on currency stability and predominant currency in the country to try to minimize cross currency comparison errors.
To show historical data, we do use monthly historical exchange rates to calculate data (mid-month currency exchange rate).
If end users choose a custom display currency for displaying historical data in a year, the mid-year currency exchange rate is used to calculate displayed data.
Taxes
Our data about prices shall have GST and VAT included. Our average salary data shall contain the value after income taxes. So we can use these data directly
to estimate local purchases power.
Calculating indices
Cost of Living Index is built based on our best guess of average expenses in a given city for a four-person family. Weights are subject to change over time.
But since the methodology is not hidden, as the moment of writing these weights are as follows:
Avant la création de Numbeo (en avril 2009), aucune autre base de données gratuite n'existait sur le coût de la vie (avec des données structurées et des indices).
D'autres rapports sur le coût de la vie avaient des données cachées ou coûteuses à l'achat.
Leur recherche était très limitée dans le nombre de villes incluses. Il était difficile de grandir sans une augmentation significative des dépenses, car ils reposaient sur des données collectées manuellement.
Aussi, il n'y avait aucune information sur le taux d'erreur dans leurs données collectées manuellement.
La collecte manuelle des données sur le coût de la vie est sujette à erreur:
- il y a un prix différent pendant l'année - l'oscillation des prix (comme des fruits et légumes moins chers pendant l'été, ou une fluctuation élevée du prix de la pomme de terre en raison du manque de stockage et d'humidité élevée)
- dans différents supermarchés, bars et restaurants les prix des articles sont généralement différents
- il y a différents types de lait, de fromage, etc. avec des prix différents même dans le même supermarché
- le pays pourrait faire face à des pénuries temporaires d'un produit donné, ce qui pourrait entraîner une hausse temporaire des prix (comme des pénuries de riz)
- si seulement une personne recueille le prix, la possibilité d'erreur humaine est plus élevée
Les rapports disponibles avant l'année 2009 comprennent généralement juste un index, ce qui n'est pas suffisant pour une estimation personnelle puisqu'une personne n'est pas une moyenne i> personne en raison de différents styles de vie tels que:
- la taille d'une famille (nombre de personnes dépendantes)
- manger au restaurant ou manger à la maison
- louer ou posséder un appartement
- conduire ou utiliser un transport en commun
- boire des boissons alcoolisées et fumer ou pas
Les autres sources de coût de la vie disponibles ne fournissaient pas un moyen systématique d'extraire des indices personnalisés. Numbeo fournit un logiciel de classe mondiale pour extraire gratuitement divers indicateurs économiques (comme en utilisant notre outil "Panier de biens et services").
Avant la Grande Récession (Crise économique mondiale de 2007-2009), le prix des propriétés dans le monde entier avait tendance à sembler fou pour le fondateur de ce site. Le prix d'un petit appartement dans un pays du tiers monde où il vit actuellement était le même que 310 écrans TFT ultra modernes à ce moment-là.
La spéculation sauvage des prix de l'immobilier suggérait que les gens avaient vraiment besoin d'un outil pour spéculer ou pour baisser leur spéculation.
Voilà comment Numbeo est né. Numbeo:
- fournit des informations gratuites sur les prix
- permet à une personne d'estimer ses propres dépenses
- utilise la sagesse de la foule pour obtenir des données aussi fiables que possible
- fournit un système pour diverses recherches systématiques sur notre grand ensemble de données
Methodologie
Collecte et traitement des données
Pour collecter des données, Numbeo s'appuie sur les contributions des utilisateurs et des données collectées manuellement à partir de sources autorisées (sites web de supermarchés, sites web d'entreprises de taxis, institutions gouvernementales, articles de journaux, autres enquêtes, etc.).
Les données collectées manuellement à partir de sources établies sont entrées deux fois par an.
Nous réalisons des filtres automatiques et semi-automatiques pour filtrer les interférences de données. Le filtre le plus simple fonctionne comme suit: si, pour un prix donné dans une ville, les valeurs sont 5, 6, 20 et 4 dans une période de temps récente, la valeur 20 est rejetée comme un bruit (car sa valeur est plus de 4 fois que la valeur moyenne)
Un autre filtre rejette ¼ (un quart) des entrées les plus basses et les plus élevées étant donné que les cas limites ont une probabilité plus élevée d'être incorrects. Parmi les entrées restantes, les valeurs les plus basses, les plus élevées et les moyennes sont calculées et affichées.
Il y a des filtres plus sophistiqués en cours d'utilisation. Les filtres fonctionnent mieux lorsqu'il y a plus d'entrées.
L'un des filtres avancés tente d'éliminer les mauvaises données d'apprentissage. Il essaye de trouver les données rejetées (données de spam) et s'il remarque des irrégularités, il les ramène dans le calcul.
Pour résumer nos filtres, Numbeo utilise la technologie heuristique pour obtenir des données de qualité. En utilisant les données existantes, Numbeo rejette périodiquement les données qui sont probablement statistiquement incorrectes.
Numbeo archive également les valeurs des anciennes données (notre politique de dépréciation des données par défaut est de 12 mois, bien que nous utilisions des données jusqu'à 18 mois lorsque nous ne disposons pas de nouvelles données et que les indicateurs suggèrent une inflation faible dans un pays donné).
Les valeurs des anciennes données sont conservées pour être utilisées à des fins historiques.
Agrégation des données pour un pays
Pour agréger les données d'un pays, nous utilisons toutes les entrées (de toutes les villes) pour calculer les données sur la moyenne du pays. Notez qu'elles sont différentes des données calculées agrégées pour toutes les villes de ce pays (pour lesquelles nous avons des données dans la base de données).
En raison des formules sous-jacentes utilisées (rejeter 25% des données hautes et basses avant de calculer les valeurs d'affichage), le prix parfois bas et élevé d'un article dans une ville peut sembler inférieur aux valeurs basses et hautes de ce pays. Cette anomalie apparaît en raison des formules sous-jacentes utilisées.
Ainsi, dans les calculs pour le pays, nous pondérons une ville par le nombre de contributeurs. Puisqu'il y a un plus grand nombre de données pour un pays que pour une ville, les données montrées au niveau d'un pays, en général, contiennent moins d'interférences que les données montrées au niveau d'une ville.
Devises
Nous utilisons des flux à plusieurs devises, y compris le flux de la Banque centrale européenne, pour mettre à jour nos taux de change internes presque toutes les heures.
Pour chaque entrée des contributeurs, nous enregistrons dans notre base de données la valeur en EUR, USD et devise de l'entrée (en utilisant le taux de change actuel).
Lors du calcul des moyennes, nous réutilisons l'une de ces entrées en fonction de la stabilité de la devise et de la devise prédominante dans le pays pour essayer de minimiser les erreurs de comparaison de devises croisées.
Pour afficher les données historiques, nous utilisons les taux de change historiques mensuels pour calculer les données (taux de change de la monnaie au milieu du mois).
Si les utilisateurs finaux choisissent une devise d'affichage personnalisée pour afficher les données historiques au cours d'une année, le taux de change de la monnaie de milieu d'année est utilisé pour calculer les données affichées.
Taxes
Nos données sur les prix doivent inclure la TPS et la TVA. Nos données salariales moyennes doivent contenir la valeur après impôts. Nous pouvons donc utiliser ces données directement pour estimer le pouvoir d'achat local.
Calcul d'indices
L'indice du Coût de la Vie est basé sur notre meilleure estimation des dépenses moyennes dans une ville donnée pour une famille de quatre personnes. Les coefficients peuvent changer au fil du temps.
Mais puisque la méthodologie n'est pas cachée, au moment de l'écriture ces coefficients sont les suivants:
Data Archiving Policy
Cost of living section uses data entered in the last 12 months ago (in a special case, when there are very low number of entries in a city
and the indicators suggest that inflation in a country is low, we use entries as old as 18 months because we think that those data might
not be changed if no one did edit existing data). Other sections which use the same data set uses the same data archiving policy.
Note that some other sections of the website use different data archiving policies. Each month, old data are moved to archives and can be pulled with our API.
Cartographic Policy
Our cartographic policy is of portraying the world from a de facto point of view; that is, to portray to the best of our judgment the current reality.
Our partners might have different cartographic policy which could be reflected in software at our website.
Politique d'Archivage des Données
La section sur le Coût de la Vie utilise les données saisies au cours des 12 derniers mois (dans un cas particulier, lorsque le nombre d'entrées dans une ville est très faible et que les indicateurs suggèrent que l'inflation est faible dans un pays, nous utilisons des données jusqu'à 18 mois parce que nous pensons que ces données pourraient ne pas avoir changé si personne n'a édité les données existantes).
Les autres sections qui utilisent le même ensemble de données utilisent la même politique d'archivage des données.
Notez que certaines autres sections du site utilisent des politiques d'archivage de données différentes. Chaque mois, les anciennes données sont déplacées vers les archives et peuvent être extraites avec notre API.
Politique Cartographique
Notre politique cartographique consiste à dépeindre le monde de facto; c'est-à-dire représenter la réalité actuelle au mieux de notre jugement.
Nos partenaires pourraient avoir une politique cartographique différente qui pourrait être reflétée dans les logiciels de notre site web.
Your use of this service is subject to our