Introduction

Dans le cadre d’un investissement immobilier, il existe deux dimensions majeures qui permettent d’évaluer objectivement la pertinence d’un investissement : la plus-value et le rendement. Le rendement se définit comme la somme des entrées de trésorerie, sur la somme des sorties de trésorerie. La plus-value se définit comme la différence entre le prix d’achat et le prix de vente à un instant t. Contrairement au rendement, il peut être complexe d’estimer précisément la valeur de la plus-value entre deux dates. Plus la date de vente étant éloignée, plus il paraît difficile de prévoir précisément la valeur de cette plus-value, celle-ci se basant sur des données exogènes difficilement quantifiables et anticipable (construction de lignes de transport en commun, tendances sociales, crises…). Toutefois, à court terme, il peut être intéressant d’obtenir une visibilité sur les tendances de plus-value au niveau d’une ville particulière.

En France, il existe un registre de données listant l’ensemble des transactions immobilières françaises sur chaque année : la base DVF. La base DVF (Demande de Valeurs Foncières) est une base de données publique, publiée et produite par la direction générale des finances publiques et qui permet d’avoir une visibilité précise sur le marché immobilier français. En reprenant année après années les informations issues de cette base, il est alors possible de déterminer l’évolution du prix de l’immobilier dans toute la France. Toutefois, les données de cette base étant issues des cabinets notariaux français, les données ne sont pas normalisées selon des règles précises et laissent donc place à des erreurs humaines importantes sur la ville, le prix ou la description de certaines transactions. Afin de pouvoir correctement exploiter les informations issues de cette base de données, il est important de correctement identifier les “outliers” qui pourraient venir biaiser cette analyse de plus-value.

Validation des données

Data Cleaning

Lors de la première étape on va tout d’abord se séparer de certaines entrées de données qui pourraient venir biaiser notre analyse. Ainsi, on supprime toutes les lignes :

  • dont le type d’opportunité n’est ni un appartement, ni une maison ;
  • dont la surface est non renseignée, nulle, inférieure à 9 m² ou supérieur à 1000 m² ;
  • dont le prix est non renseigné, nul ou supérieur à 1 milliard ;
  • dont le prix au mètre carré est inférieur à 500.

Premier Algorithme - Test de validation - Valeurs Extrêmes

Un second algorithme de traitement consiste à éliminer les transactions à valeur extrêmes de prix. De manière générale, on choisit un intervalle de confiance de 95%, correspondant à 2 sigma, afin d’éliminer 5% des valeurs les plus petites et les plus élevées du set de données. Après étude, on choisit de prendre un intervalle de confiance de 94%, ce qui nous permet d’obtenir des valeurs cohérentes sur les grandes villes mais moins sur les petites villes. Pour limiter ces incohérences, on décide de placer cet intervalle de confiance uniquement sur les valeurs de prix les plus hautes. En effet, on remarque que l’écart type pour les valeurs au-dessus de la moyenne, est en général bien plus élevé que pour les valeurs en dessous de ce dernier.

Deuxième Algorithme - Test de validation - Doublons

Le premier algorithme de traitement que nous mettons en place a pour objectif de supprimer les éventuels doublons que nous pourrions avoir dans cette base. Pour ce faire, on identifie l’ensemble des lignes dont le prix représenterait plus de 5% des prix pour une seule et même ville. Ainsi, si pour une certaine ville, recensant 100 transactions, si nous identifions 6 transactions avec un prix strictement identique, nous supprimons ces mêmes transactions.

Deuxième Algorithme - Min/Max/Médiane

Afin de s’affranchir des dernières valeurs extrêmes qui pourraient subsister on va éliminer un certain nombre de valeurs restantes. Pour chacune des villes, on va calculer le prix minimum, maximum et médian. On calcule la différence entre le minimum et la médiane, puis on ajoute cette différence à la médiane. Cette addition va nous permettre de déterminer un second maximum, qui pourra être éventuellement plus faible que le précédent maximum. Dans ce cas, on supprimera l’ensemble des lignes dont le prix est compris entre le maximum initial et le maximum calculé.

Deuxième Algorithme - “Trouver le point”

En dernier lieu, on va éliminer les points qui semblent être des doublons. Pour ce faire on va rechercher, avec un prix décroissant, le premier point possédant un prix unique. Sinon, on supprime toutes les lignes avec un prix identique et supérieur à la valeur de ce dernier point.

Exemples de villes étudiées

Après avoir corrigé notre façon de procéder, on peut recalculer le taux de croissance pour les villes françaises. Voici quelques exemples certaines villes :

Paris

On observe les distributions de prix, de surface et de prix au mètre carré. On constate que le prix où la plupart de transactions sont autour de trois cents milles (300 000€). Quant à la surface, 30m² (plus ou moins) est le choix le plus populaire pour les Parisiens. Le prix au mètre carré se centre sur dix milles (10 000€/m²) et semble correspondre à une distribution normale.

paris_price_distribution.png

Répartition du nombre de transaction immobilières de la base DVF en fonction du prix à Paris

paris_surface_distribution.png

Répartition du nombre de transaction immobilières de la base DVF en fonction de la surface à Paris

paris_price_m2_distribution.png

Répartition du prix au mètre carré selon la base DVF à Paris

Avec la technique du “Simple Moving Average”, on dessine les graphes au-dessous. Comme une grande valeur a un impact plus important qu’une petite, la courbe de prix se trouve au niveau de six cents milles (600 000€) et non autour de trois cent mille (300 000€) comme la distribution de prix l’indique. Pareillement pour le prix au mètre carré. Pour Paris, le taux de croissance annuel du prix au mètre carré est de 4.5%.

paris_evolution_price.png

Bordeaux

Les distributions de prix, de surface et de prix au mètre carré nous montrent la même tendance, sauf qu’à Bordeaux, il y a trois pics pour la surface : 30, 45 et 65 m².

bdx_price.png

Répartition du nombre de transaction immobilière de la base DVF en fonction du prix à Bordeaux

bdx_surface.png

Répartition du nombre de transaction immobilières de la base DVF en fonction de la surface à Bordeaux

bdx_price_m2.png

Répartition du prix au mètre carré selon la base DVF à Bordeaux

On voit un pic au milieu de l’année 2020. C’est probablement des transactions anormales qu’on n’a pas pu éliminer. Même si le graphe est plat, on peut entrevoir une augmentation de prix au mètre carré d’environ 1000 € en 5 ans. Pour Bordeaux, le taux de croissance annuel du prix au mètre carré est de 2.9%.

bdx_evol.png