Identificando áreas mais caras de Curitiba

Precificação de Imóvel

Muito comum em estudos de precificação de imóvel saber quais fatores e quanto contribuem para o valor do imóvel. Por exemplo o acréscimo de churrasqueira num apartamento, ter duas vagas no estacionamento ou o que há no entorno do imóvel, como padaria, ponto de ônibus. Entretanto, para esta análise usarei outra abordagem, por meio da estatística espacial. Será respondido três perguntas, quais as áreas mais caras, se existe diferença entre a área com os respectivos vizinhos e agrupar um conjunto de áreas pela similaridade do m².

Nesta análise específica, trata-se para a cidade de Curitiba. Foram extraídos anúncios no site Viva Real, ao todo foram baixados 65253 dados.

Os dados baixado possuem a seguinte característica, o tipo, preço, a cobrança, no caso todos de vendas, a área total, o preço do m² que é a variável de interesse e as coordenadas geográficas. Uma parcela é exemplificada.

imovel preco cobranca Total Area m2 lat long
1 Apartamento 699000 Venda 145 4820.690 -25.46320 -49.28212
5 Sobrado 500000 Venda/Aluguel 110 4545.455 -25.45159 -49.31597
10 Casa 980000 Venda 250 3920.000 -25.37298 -49.33136

Distribuição Geográfica do M²

Considerando que queremos colocar esta informação no mapa de Curitiba.

Na figura 1 apresenta três possíveis cenários para resumir o m² na cidade. No sentido esquerda para direita, temos a divisão por bairro, a cidade e grids quadrados. Não será usado a divisão por bairros, por haver muita heterogeonidade dentro do bairro. Também não será usado os pontos solto na cidade. O critério decidido foi criar áreas (pixels) menores. O tamanho de Curitiba é 435,036 km² logo o com 162 pixels cada um com cerca de 2685 km.

Mapa de Curitiba

Figura 1: Mapa de Curitiba

A união da localização dos imóveis com o grid é vista na figura 2. Algumas áreas não possuem ofertas e foram removidas das análises, assim como, imóveis em que estão fora do grid.

Localização dos Imóveis

Figura 2: Localização dos Imóveis

Os pontos sobrepostos ao pixel, foram sumarizados para representar a média do m² no pixel, conforme a tabela abaixo.

Tabela 1: Média do m² por área
area m2
g208 3439.763
g195 3041.463
g196 2978.115
g184 2951.854
g185 1944.444
g186 3968.363

A visualização de todas as média do m² no pixel é mostrado no mapa 3. A região central e noroeste tem os valores mais caros, passando até valores de 7000. A medida que se afasta do centro as regiões periféricas e principalmente na zona sul apresentam os menores m², com valores entre 1000 a 2000.

Mapa do m²

Figura 3: Mapa do m²

Após visualizar a distribuição espacial do m², a pergunta de interesse é se áreas pŕoximas compartilham valores próximos ou são diferentes. Para comparar áreas próximas é necessário definir vizinhança. No caso a vizinhança são as áreas que fazem fronteira, no caso, todos movimentos da rainha no jogo de xadrez.

Proximidade nas Áreas

Para contribuir com esta discussão a metodologia I de Moran se encaixa para identificar proximidade geográfica. A metodologia I de Moran está descrita com detalhes aqui.

A proximidade espacial é intuitivamente apresentada por meio do gráfico de espalhamento de Moran presente na Figura 4. No gráfico, cada ponto representa um pixel do mapa. A linha pontilhada é a média do m² na cidade, desta forma são definidas as cores.

Relação do m² com os respectivos vizinhos

Figura 4: Relação do m² com os respectivos vizinhos

Os pontos em vermelho representam pixels e os respectivos vizinhos com m² acima da média da cidade. Ao inverso, pontos em azul representam pixels e os respectivos vizinhos abaixo da média. Pontos Laranjas representam pixel acima da média mas os seus vizinhos estão abaixo. Pontos em verde são pixels abaixo da média da cidade, mas com vizinhos acima da média.

Outra característica destes pontos é a tendência de crescimento, a nuvem de pontos está inclinado para direita o que indica que quanto maior o preço do m², também aumenta os valores de média dos vizinhos. O índice de Moran quantificou esta relação atribuindo 0.68, indicando uma autocorrelação positiva.

Intuitivamente o índice de Moran é uma auto correlação pois avalia a mesma informação com seus pares. O índice varia de -1 a 1, caso o resultado fosse próximo a 0, indicaria nenhuma relação entre os vizinhos. Se fosse próximo a -1, significaria que o pixel está oposto a seus vizinhos, pense num tabuleiro de xadrez, pixel branco ao redor de preto e vice versa.

Outra maneira de visualizar esta informação, é dispondo a informação no mapa, presente na Figura ??.

Ao olharmos os dois mapa, corresponde com a afimação que região central concentra as áreas mais valorizadas e nas bordas as regiões menos valorizadas. A região intermediária é laranja ou verde. Nota-se alguns pixels, laranja ao redor de azuis, indicando que possa haver alguma característica atípica que eleve o valor da área.

Na estatística a maior parte do trabalho é verificar diferença, nesse caso identificar se existem áreas estatisticamente diferentes tanto acima ou abaixo dos seus pares. A metodologia de Moran é desdobrada para um índice local, que também detalhado Moran Global.

No caso foi identificado regiões superiores a seus vizinhos. Tanto em áreas que estavam acima da média de Curitiba como a região Central como nas regiões periféricas. Em contrapartida não foi identificado, nenhuma área inferior a seus vizinhos.

O resultado indica que existem áreas específicas estatisticamente superiores as demais, porém não aponta quais as características dessas áreas que a tornam diferente. Um passo seguinte para detalhamento, seria investigar quais atributos há nestas áreas que as tornam diferentes dos seus vizinhos.

Agrupamento por Similaridade

Havendo proximidade geográfica entre as áreas, pode-se agrupar conjuntos pela similaridade. Como produto deste resultado, pode ser feitos campanhas de marketing específicas, multirões, pode-se redefinir uma regionalização administrativa pelos dados.

O algoritmo SKATER agrupa os pixels pelo o m² dado a continuidade geográfica. O algoritmo SKATER caso queira mais detalhes está aqui. A primeira parte do algoritmo é definir o menor caminho entre todos os vizinhos levando em consideração um critério de custo. No caso a imagem abaixo, mostra passo a passo a definição do menor caminho entre os pontos. O custo é a diferença do valor m² entre seus vizinhos.

Na primeira fração é mostrado todos os vizinhos entre si e o custo de ir para cada vizinho. O algoritmo define destaca o caminho pelo menor peso. Então o conjunto (a) vai para o (b) depois o (b) para o (c), assim sucessivamente até o menor atingir todos os pontos. A fração (i) em negrito é o caminho mínimo, portanto, substitui toda vizinhança inicial.

No nosso conjunto de dados acontece a respectiva mudança.

Após definir o caminho mínimo, agora é necessário definir grupos com a intenção de que as áreas sejam homogêneas no grupo e heterogêneo entre si. O critério pode ser estabelecido a priori por questões logísticas ou por um custo de variabilidade.

Este custo é máximo quando tem apenas um grupo e vai diminuindo conforme adiciona-se grupos, conforme a figura ??. O custo se torna 0 quando a quantidade de grupo for igual ao número de áreas.

Primeiramente é calculado a média do custo em cada grupo. A partir disso é feito a diferença quadrática entre as áreas com a média do grupo. Então é calculado o somatório de todos os grupos.
\[c_j = \sum_{j}^{k} \frac{x_{ij}}{n}\]

\[Variação = \sum_{j}^{k} \sum_{j}^{n}(x_{ij} - c_{j})^{2}\]

  • \(x_{ij}\) = área
  • n = Número de áreas no grupo
  • k = Número de grupos

O resultado proporciona o gráfico da Figura 5. No eixo x tem-se o número de grupos e no eixo y o custo da variação. A partir do 4 a mudança permanece a mesma, portanto será a quantidade definida.

Custo da Variação por Grupo

Figura 5: Custo da Variação por Grupo

Como resultado final, há a Figura 6 com os agrupamentos e a tabela identificadora dos grupos. A média do m² de cada grupo mostra que a região 4 é a mais valorizada e com maior diferença matemática entre as demais.

Grupo Ideal

Figura 6: Grupo Ideal

grupo media_M2
1 3275.204
2 4193.857
3 4532.843
4 6292.861

Este breve trabalho teve a pretenção de usar técnicas simples de estatística espacial para dados de precificação de imóveis, na identificação de regiões atípicas e agrupamento. É claro que a precificação de imóveis pode ser expandida para muitos outros componentes como, incluir as reclamações do 156, alvará de cada área.

Além disso neste post a estrutura de apresentação, passou por criar mapas, gráficos, técnicas de estatística espacial, webscrapping. Todos estes tópicos serão dedicados futuramente no site.