Before Numbeo was created (April 2009), no other free database about a cost of living (with structured data and indices) existed.
Other cost of living reports had the data behind their research hidden or expensive to purchase.
Their research was very limited in the number of cities included. It is difficult to scale up without a significant increase in expenses since they relied on manually collected data.
Also, there were no insight about the error rate in their manually collected data.
Manual collection of cost of living data is error prone:
- there is a different price during the year - price oscillation (i.e. cheaper fruits and vegetables during the summer; or high fluctuation of potato price because of lack of storage and high moisture)
- in different supermarkets, bars and restaurants prices of items are usually different
- there are different types of milk, cheese, etc. with different prices even in the same supermarket
- the country could face temporary shortages of a given item which could drive the price temporary up (i.e. rice shortages)
- if only one person collects the price, possibility of human error is higher
Reports available before the year 2009 usually include just an index, which is not enough for
a personal estimate since a person is not an average person due to different lifestyles such as:
- the size of a family (number of dependent persons)
- dining out or eating at home
- renting or owning an apartment
- driving or using a public transport
- drinking alcoholic drinks and smoking or not
Other available cost of living sources didn't provide a systematic way to extract custom indices. Numbeo provides a world-class software
for extracting various economic indicators for free (i.e. using our "Basket of goods and services" tool).
Before the Great Recession (World Economic Crysis of 2007-2009) price of properties worldwide tended to look like a crazy to
the founder of this website. The price of a small apartment in a third world country he currently lives in was same as 310 ultra
modern TFT monitors at that time. The wild speculation in property prices suggested that people really needed a tool for a
speculation or to turn their speculation down.
So, that's how Numbeo was born. Numbeo:
- provides free information about prices
- allows a person to estimate their own expenses
- uses the wisdom of the crowd to get as reliable data as possible
- provides a system for various systematic research on our big dataset
Methodology
Collecting and processing data
To collect data Numbeo relies on user inputs and manually collected data from authoritative sources
(websites of supermarkets, taxi company websites, governmental institutions, newspaper articles, other surveys, etc.).
Manually collected data from established sources are reentered twice per year.
We perform automatic and semi-automatic filters to filter out noise data. The simplest filter is working as follows: if, for a particular price in a city,
values are 5, 6, 20 and 4 in a recent time span, the value 20 is discarded as a noise (as it value is more than 4 times than the average value)
Another filter discards ¼ (one quarter) of lowest and highest inputs as borderline cases have a higher probability to be incorrect. Out of remaining entries,
the lowest, highest and mean value are calculated and displayed.
There are more sophisticated filters in use. The filters are performing better when there are more inputs.
One of the advanced filters tries to eliminate bad training data. It digs into discarded data (spam data) and if notices irregularities, it moves them back into the calculation.
To summarize our filters, Numbeo uses heuristic technology to get the data quality. Using the existing data Numbeo periodically discards data which most likely are
incorrect statistically.
Numbeo also archives the values of old data (our default data deprecation policy is 12 months, although we use data up to 18 months old
when we don't have fresh data and indicators suggest that inflation is low in a particular country). The values of old data are preserved
to be used for historical purposes.
Aggregating data for a country
To aggregate data for a country, we use all entries (for all cities) to calculate country average data. Note that it is different from the aggregating calculated data for
all cities in that country (for which we have data in the database). Due to underlying internal formulas used (discarding top and bottom 25% of the data before calculating display values),
sometimes low and high price of an item in one city might look not on par with low and high values of that country. That anomaly appears due to underlying formulas used.
So, in calculations for the country, we are weighting a city by the number of contributors. Since they are the higher number of inputs for a country than for a city,
data showed on a country level, in general, contains lower noise than data showed on a city level.
Currencies
We do use multiple currency feeds including European Central Bank feed to update our internal currency exchange rates almost every hour.
For each entry of the contributors, we do save in our database the value in EUR, USD and currency of the input (using current exchange rate).
When calculating averages, we do reuse one of those entries based on currency stability and predominant currency in the country to try to minimize cross currency comparison errors.
To show historical data, we do use monthly historical exchange rates to calculate data (mid-month currency exchange rate).
If end users choose a custom display currency for displaying historical data in a year, the mid-year currency exchange rate is used to calculate displayed data.
Taxes
Our data about prices shall have GST and VAT included. Our average salary data shall contain the value after income taxes. So we can use these data directly
to estimate local purchases power.
Calculating indices
Cost of Living Index is built based on our best guess of average expenses in a given city for a four-person family. Weights are subject to change over time.
But since the methodology is not hidden, as the moment of writing these weights are as follows:
Prima che Numbeo fosse creato (Aprile 2009), non esisteva nessun database gratuito sul costo della vita (con dati strutturati e indici).
Altri rapporti sul costo della vita avevano i dati delle ricerche nascosti o venduti a caro prezzo.
Le loro ricerche erano molto limitate riguardo il numero delle città incluse. Era per loro difficile aumentarle senza un incremento significativo dei costi, dal momento che si basavano su dati raccolti manualmente.
Inoltre, non c'era nessuna verifica del tasso di errore dei loro dati raccolti manualmente.
la raccolta manuale dei dati è soggetta ad errori:
- c'è un prezzo diverso in diversi periodi dell'anno - oscillazione dei prezzi (come frutta e verdura più economica in estate; o fluttuazioni nel costo delle patate per colpa delle scarse riserve o per l'alta umidità)
- in supermercati, bar e ristoranti diversi, i prezzi dei prodotti di solito sono diversi
- ci sono diversi tipi di latte, formaggio e così via, con diversi prezzi anche all'interno dello stesso supermercato
- una nazione può trovarsi a corto di un determinato prodotto il che può portare all'aumento temporaneo dei prezzi (come la carenza di riso)
- se una sola persona raccoglie i prezzi, la possibilità di errore umano è più alta
I rapporti disponibili prima dell'anno 2009 normalmente includono un solo indice, che non è abbastanza per
una stima personalizzata, dal momento che una persona non rappresenta la media per via dello stile di vita come ad esempio:
- la dimensione di una famiglia (il numero di persone che ne fanno parte)
- mangiare fuori o mangiare a casa
- stare in affitto o possedere la casa
- guidare o usare mezzi di trasporto
- bere alcolici, fumare o no
Altre fonti del costo della vita disponibili non fornivano un modo sistematico per estrarre degli indici personalizzati. Numbeo fornisce un software di livello mondiale
per estrarre gratuitamente vari indici economici (come il nostro strumento "Paniere dei beni di consumo").
Prima della Grande Recessione (Crisi Economica Mondiale del 2007-2009) Il fondatore di questo sito trovava che i prezzi degli immobili nel mondo
apparissero come impazziti. Il costo di un piccolo appartamento in una nazione del terzo mondo in cui vive attualmente
era quanto il prezzo di 310 monitor LCD ultramoderni di allora.
La speculazione selvaggia sui prezzi degli immobili suggeriva che la gente avesse davvero bisogno di uno strumento per speculare o per contrastare la speculazione.
Quindi, ecco com'è nato Numbeo. Numbeo:
- fornisce informazione gratuite sui prezzi
- permette di stimare le proprie spese
- usa la conoscenza della gente per ottenere dati dei più affidabili possibili
- fornisce un sistema per varie ricerche sistematiche nel nostro grande archivio di dati
Metodologia
Raccolta e trattamento dei dati
Per raccogliere dati, Numbeo si avvale degli inserimenti degli utenti e dati raccolti manualmente da fonti autorevoli
(siti web dei supermercati, siti web delle compagnie di taxi, istituzioni governative, articoli di giornale, altri sondaggi, ecc.).
I dati inseriti manualmente da fonti prestabilite sono reinseriti due volte l'anno.
Utilizziamo dei filtri automatici e semi-automatici per filtrare i dati di disturbo. Il filtro più semplice funziona così: se, per un particolare prezzo in una città,
i valori sono 5, 6, 20 e 4 in un breve lasso di tempo, il valore 20 è rigettato come disturbo (dal momento che il suo valore è 4 volte superiore alla media)
Un altro filtro rigetta ¼ (un quarto) degli inserimenti più bassi e più alti visto che i dati ai margini hanno più probabilità di essere errati.
Degli inserimenti rimanenti, il più basso, il più alto e il valore medio sono calcolati e visualizzati.
Vengono usati anche dei filtri più sofisticati. I filtri lavorano meglio quando ci sono più dati a disposizione.
Uno dei filtri avanzati cerca di eliminare i dati di 'bad training'. Scava nei dati scartati (spam) e se nota irregolarità li ri-aggiunge per farli calcolare di nuovo.
Per fare il punto sui nostri filtri, Numbeo usa una tecnologia euristica per avere dati di qualità. Usando i dati esistenti, Numbeo periodicamente scarta i dati che
è più probabile siano statisticamente scorretti.
Numbeo oltretutto archivia i valori dei vecchi dati (la nostra politica sul periodo standard di scarto è 12 mesi, anche se possiamo usare dati fino a 18 mesi
quando non abbiamo dati recenti e i nostri indicatori suggeriscono che l'inflazione è bassa in quella particolare nazione). I valori dei vecchi dati sono mantenuti
per essere usati a fini storici.
Aggregare dati per una nazione
Per aggregare i dati per una nazione, usiamo tutti gli inserimenti (per tutte le città) per calcolare i dati medi per quella nazione. Notare che non è lo stesso che aggregare i dati calcolati per
tutte le città in quella nazione (delle quali abbiamo dati nel nostro archivio). Per via delle formule che utilizziamo (che rigettano il 25% più basso e più alto dei dati prima di visualizzarli),
a volte i prezzi maggiori e minori per un elemento in una città possono sembrare in disaccordo con quelli massimi e minimi dei quella nazione. Questa anomalia sembra sia dovuta alle formule sottostanti.
Per cui, quando calcoliamo i valori nazionali, pesiamo le città per numero di contributori. Dal momento che c'è un maggior numero di inserimenti per una nazione che per una città,
i dati mostrati a livello nazionale, in generale, contengono un disturbo minore di quelli mostrati a livello città.
Valute
Usiamo fonti multiple per le valute inclusa la Banca Centrale Europea per aggiornare il nostro convertitore di valute interno quasi ogni ora.
?Per ogni inserimento dei nostri contributori, salviamo nel nostro database il valore in EUR, USD e la valuta di inserimento (usando la conversione corrente).
?Quando calcoliamo le medie, riutilizziamo uno di quegli inserimenti basati su la stabilità della valuta e la valuta predominante nella nazione per cercare di minimizzare gli errori di comparazione trasversale di valute.
Per mostrare i dati storici, usiamo i tassi di cambio mensili storici per calcolare i dati (tasso di cambio di metà mese).
se l'utente selezione una valuta personalizzata per visualizzare i dati storici in un anno, i tassi di cambio di metà anno sono usati per calcolare i dati mostrati.
Tasse
I nostri dati sui prezzi hanno tutti i GST e VAT (IVA) inclusi. I nostri dati sul salario medio includono i valore al netto delle tasse sul reddito. così possiamo usare questi dati direttamente
per stimare il potere di acquisto locale.
Calcolo degli Indici
L'Indice del Costo della Vita è basato sulla nostra migliore supposizione della media delle spese in una determinata città per una famiglia di quattro persone. I pesi sono soggetti a cambiamenti nel tempo.
Dal momento che la metodologia non è nascosta, al momento in cui si sta scrivendo i pesi sono i seguenti:
Data Archiving Policy
Cost of living section uses data entered in the last 12 months ago (in a special case, when there are very low number of entries in a city
and the indicators suggest that inflation in a country is low, we use entries as old as 18 months because we think that those data might
not be changed if no one did edit existing data). Other sections which use the same data set uses the same data archiving policy.
Note that some other sections of the website use different data archiving policies. Each month, old data are moved to archives and can be pulled with our API.
Cartographic Policy
Our cartographic policy is of portraying the world from a de facto point of view; that is, to portray to the best of our judgment the current reality.
Our partners might have different cartographic policy which could be reflected in software at our website.
Politica Archiviazione Dati
La sezione sul Costo della Vita usa dati inseriti negli ultimi 12 mesi (in casi speciali, quando c'è un numero molto basso di inserimenti in una città
e gli indicatori suggeriscono che l'inflazione in quella nazione è bassa, usiamo dati fino a 18 mesi perché riteniamo che se nessuno li ha aggiornati, quei dati
non siano cambiati). Le altre sezioni che usano lo stesso set di dati, utilizzano la stessa politica di archiviazione dei dati.
Nota che alcune delle altre sezioni del sito usano differenti politiche di archiviazione. Ogni mese, i dati vecchi sono spostati nell'archivio e possono essere richiamati usando la nostra API.
Politica Cartografica
La nostra politica cartografica è di rappresentare il mondo da un punto di vista de facto; il che vuol dire di rappresentare, al meglio del nostro giudizio, la realtà corrente.
I nostri partner possono avere diverse politiche cartografiche che potrebbero riflettersi nel software sul nostro sito.
Your use of this service is subject to our