<p>Before Numbeo was created (April 2009), no other free database about a cost of living (with structured data and indices) existed. <p>Other cost of living reports had the data behind their research hidden or expensive to purchase. Their research was very limited in the number of cities included. It is difficult to scale up without a significant increase in expenses since they relied on manually collected data. Also, there were no insight about the error rate in their manually collected data. Manual collection of cost of living data is error prone: <ul> <li>there is a different price during the year - price oscillation (i.e. cheaper fruits and vegetables during the summer; or high fluctuation of potato price because of lack of storage and high moisture)</li> <li>in different supermarkets, bars and restaurants prices of items are usually different</li> <li>there are different types of milk, cheese, etc. with different prices even in the same supermarket</li> <li>the country could face temporary shortages of a given item which could drive the price temporary up (i.e. rice shortages)</li> <li>if only one person collects the price, possibility of human error is higher</li> </ul> <p>Reports available before the year 2009 usually include just an index, which is not enough for a personal estimate since a person is not an <i>average</i> person due to different lifestyles such as: <ul> <li>the size of a family (number of dependent persons)</li> <li>dining out or eating at home</li> <li>renting or owning an apartment</li> <li>driving or using a public transport</li> <li>drinking alcoholic drinks and smoking or not</li> </ul> <p>Other available cost of living sources didn't provide a systematic way to extract custom indices. Numbeo provides a world-class software for extracting various economic indicators for free (i.e. using our "Basket of goods and services" tool). <p>Before the Great Recession (World Economic Crysis of 2007-2009) price of properties worldwide tended to look like a crazy to the founder of this website. The price of a small apartment in a third world country he currently lives in was same as 310 ultra modern TFT monitors at that time. The wild speculation in property prices suggested that people really needed a tool for a speculation or to turn their speculation down. <p> So, that's how Numbeo was born. Numbeo: <ul> <li>provides free information about prices</li> <li>allows a person to estimate their own expenses</li> <li>uses the wisdom of the crowd to get as reliable data as possible</li> <li>provides a system for various systematic research on our big dataset</li> </ul> <p> <p> <h2>Methodology</h2> <h3>Collecting and processing data</h3> <p>To collect data Numbeo relies on user inputs and manually collected data from authoritative sources (websites of supermarkets, taxi company websites, governmental institutions, newspaper articles, other surveys, etc.). Manually collected data from established sources are reentered twice per year. <p>We perform automatic and semi-automatic filters to filter out noise data. The simplest filter is working as follows: if, for a particular price in a city, values are 5, 6, 20 and 4 in a recent time span, the value 20 is discarded as a noise (as it value is more than 4 times than the average value) <p>Another filter discards ¼ (one quarter) of lowest and highest inputs as borderline cases have a higher probability to be incorrect. Out of remaining entries, the lowest, highest and mean value are calculated and displayed. <p> There are more sophisticated filters in use. The filters are performing better when there are more inputs. <p>One of the advanced filters tries to eliminate bad training data. It digs into discarded data (spam data) and if notices irregularities, it moves them back into the calculation. <p>To summarize our filters, Numbeo uses heuristic technology to get the data quality. Using the existing data Numbeo periodically discards data which most likely are incorrect statistically. <p>Numbeo also archives the values of old data (our default data deprecation policy is 12 months, although we use data up to 18 months old when we don't have fresh data and indicators suggest that inflation is low in a particular country). The values of old data are preserved to be used for historical purposes. <h3>Aggregating data for a country</h3> To aggregate data for a country, we use all entries (for all cities) to calculate country average data. Note that it is different from the aggregating calculated data for all cities in that country (for which we have data in the database). Due to underlying internal formulas used (discarding top and bottom 25% of the data before calculating display values), sometimes low and high price of an item in one city might look not on par with low and high values of that country. That anomaly appears due to underlying formulas used. So, in calculations for the country, we are weighting a city by the number of contributors. Since they are the higher number of inputs for a country than for a city, data showed on a country level, in general, contains lower noise than data showed on a city level. <h3>Currencies</h3> We do use multiple currency feeds including European Central Bank feed to update our internal currency exchange rates almost every hour. For each entry of the contributors, we do save in our database the value in EUR, USD and currency of the input (using current exchange rate). When calculating averages, we do reuse one of those entries based on currency stability and predominant currency in the country to try to minimize cross currency comparison errors. <p/>To show historical data, we do use monthly historical exchange rates to calculate data (mid-month currency exchange rate). If end users choose a custom display currency for displaying historical data in a year, the mid-year currency exchange rate is used to calculate displayed data. <h3>Taxes</h3> Our data about prices shall have GST and VAT included. Our average salary data shall contain the value after income taxes. So we can use these data directly to estimate local purchases power. <h3>Calculating indices</h3> Cost of Living Index is built based on our <i>best guess</i> of average expenses in a given city for a four-person family. Weights are subject to change over time. But since the methodology is not hidden, as the moment of writing these weights are as follows:
Vor der Gründung von Numbeo im April 2009 gab es keine andere freie Datenbank über die Lebenshaltungskosten mit strukturierten Daten und Indices.
Bei anderen Quellen zu Lebenshaltungskosten waren die Daten verborgen oder mussten teuer gekauft werden. Die Daten waren auf sehr wenige Städte begrenzt. Ohne wesentlich höhere Ausgaben wäre es den Anbietern dieser Daten kaum möglich gewesen, Informationen über mehr Städte anzubieten, da sie auf manuell gesammelte Daten angewiesen waren. Außerdem konnte nichts über die Fehlerrate bei diesen manuell gesammelten Daten gesagt werden. Die manuelle Erfassung von Daten zu den Lebenshaltungskosten ist fehleranfällig:
Die Berichte, die vor 2009 verfügbar waren, gaben gewöhnlich lediglich einen Index an, der jedoch nicht genügt, um die individuellen Ausgaben einschätzen zu können. Den Otto Normalverbraucher gibt es nicht, da die Lebensumstände in folgenden Bereichen unterschiedlich aussehen können:
Die anderen Quellen zu Lebenshaltungskosten haben keine Möglichkeit geboten, individuelle Fälle abzubilden. Numbeo bietet eine erstklassige Software, die kostenlos Auskunft über verschiedene wirtschaftliche Indikatoren gibt.
Vor der Weltwirtschaftskrise ab 2007 kamen dem Gründer dieser Website die weltweiten Immobilienpreise völlig verrückt vor. Eine kleine Wohnung in dem Entwicklungsland, in dem er heute lebt, kostete so viel wie 310 modernste TFT-Bildschirme. Die abenteuerlichen Spekulationen rund um Immobilienpreise ließen den Wunsch nach einem Tool wachsen, das diesen Spekulationen eine Grundlage bietet.
Und so ist Numbeo entstanden. Numbeo:
Numbeo erhält seine Daten durch Eingaben von Nutzern sowie von manuell erhobenen Daten aus verlässlichen Quellen (Websites von Supermärkten, Taxiunternehmen und Behörden, Zeitungsartikel, andere Umfragen usw.). Manuell erhobene Daten aus verlässlichen Quellen werden zweimal im Jahr aktualisiert eingetragen.
Mithilfe von automatischen und halbautomatischen Filtern können wir zweifelhafte Daten erkennen und ausschließen. Der einfachste Filter funktioniert wie folgt: Wenn im selben Zeitraum für den Preis eines bestimmten Produkts die Werte 5, 6, 20 und 4 eingetragen wurden, wird der Wert 20 als „Datenrauschen“ abgelehnt, da dieser viermal so hoch wie der Durchschnitt.
Ein weiterer Filter schließt ¼ (ein Viertel) der niedrigsten und höchsten Einträge aus, da besonders hohe bzw. niedrige Werte tendenziell eher inkorrekt sind. Aus den verbleibenden Einträgen werden der Höchst-, Mindest- und Mittelwert errechnet und angezeigt.
Es werden außerdem noch komplexere Filter eingesetzt. Die Filter funktionieren desto besser, je mehr Daten eingetragen wurden.
Einer der erweiterten Filter versucht, schlechte Trainingsdaten zu entfernen, die der Spam-Filter verwendet. Er durchsucht als Spam gekennzeichnete Daten und rehabilitiert sie, wenn Unregelmäßigkeiten festzustellen sind.
Zusammenfassend kann man zu den Filtern sagen, dass Numbeo heuristische Technologie für qualitativ hochwertige Daten verwendet. Auf Grundlage der vorhandenen Daten schließt Numbeo in regelmäßigen Abständen Daten aus, die statistisch gesehen sehr wahrscheinlich nicht korrekt sind.
Numbeo archiviert außerdem ältere Daten. Standardmäßig geschieht dies alle 12 Monate, wobei auch Daten, die bis zu 18 Monate alt sind genutzt werden, wenn keine neuen Daten verfügbar sind und von einer geringen Inflationsrate ausgegangen werden kann. Die alten Werte werden zu statistischen Zwecken aufbewahrt.