Que rios nós queremos?

Uma das maiores preocupações após estourar a barragem de brumadinho é a contaminação nos rios, compremetendo toda a qualidade da água, a fauna e a flora da região. Para que o crime ambiental não prejudique mais ainda a natureza, é necessário criar mecanismo de controle e monitoramento da qualidade do rio. No Paraná, o orgão responsável pelo monitoramento e disponibilização dos dados é o AGUASPARANÁ.

Por meio das coletas de qualidade da água do instituto desenvolvi meu TCC, nos vários parâmetros e condições que o orgão atua. Sendo assim, o objetivo da matéria é expor, parte do TCC, quanto a qualidade da água do estado, analisando o cumprimento das leis e a tendência da série histórica. No que tange a estatística e análise de dados será exposto técnicas de análise descritiva e métodos de regressão suavizada.

O primeiro contato com esses dados foi por meio do estágio no ministério público estadual, por meio do projeto da rede ambiental. O preliminar resultado está disponível, no qual foi feito um dashboard, somente com a atributo IQA (Índice de Qualidade da Água).

A base de dados trata de um período de monitoramento entre 1982 a 2013, em 13 bacias hidrográficas do Paraná sendo ao todo 7961 coletas, em 152 rios com 269 pontos de monitoramento.

Relembrando a bacia hidrográfica, pode ser caracterizada por um conjunto de terras drenadas por um rio e seus afluentes, formada nas regiões mais altas do relevo por divisores de água, onde as águas das chuvas escoam superficialmente formando os riachos e rios (TEODORO et al., 2015).

Os dados da matéria podem ser baixados no hidroweb do estado, porém necessitam dos identificadores da estação de monitoramento. Sendo assim estarei disponibilizando o dataset da análise e os identificadores estão na coluna id. As análise foram feitas em R e extraindo o dataset no SQL. Optei em disponibilizar os códigos no repositório do github que complementa o site .

Então vamos lá, sem mais delongas analisar os dados!

Num primeiro momento, visualizamos toda a série histórica dos dados.

A linha histórica demostra a irregularidade de coletas durante o período. Segundo os servidores consultados do órgão, o motivo desta oscilação é por motivos técnicos, logísticos e estruturais, e que o cenário ideal seriam coletas trimestrais, tornando o gráfico menos volátil.

Exibindo em formato de mapa a localizações dos pontos de monitoramento e a respectiva quantidade de coletas realizadas. Além disso no mapa as linhas dividem as bacias hidrográficas.



No mapa, passando o mouse “por cima”, identifica a respectiva bacia hidrográfica. Ao clicar na estação de monitoramento aparece o código e a contagem de coletas. Quanto mais azul mais coletas, as cidades mais populosas do Paraná como Curitiba tiveram mais coletas.

É nótorio que, dentro de cada bacia hidrográfica, os pontos de acompanhamento tem diferentes tempos de coletas. Por consequência tenho as séries temporais desbalanceadas. Outro aspecto é a quantidade de pontos de monitoramento entre as bacias hidrográficas. Esta relação fica mais evidente na tabela à seguir.

Table 1: Abrangência das Coletas
Bacia Coletas Monitoramento Rio Município
Iguaçu 5121 136 75 55
Tibagi 534 29 17 18
Ivaí 523 22 16 19
Litorânea 416 18 14 6
Piquiri 397 16 8 13
Ribeira 354 11 7 7
Cinzas 213 10 6 10
Paraná 3 163 8 4 5
Pirapó 109 10 4 9
Itararé 62 5 4 3
Paranapanema 3 42 2 2 2
Paraná 1 25 1 1 1
Paranapanema 1 2 1 1 1
Total 7961 269 159 149

Das 13 bacias hidrográficas, a bacia do Iguaçu representa mais que 50% de todos os dados coletados. Com 136 pontos de monitoramento, em 75 diferentes rio e abrange 55 cidades. As bacias Paraná 1 e Paranapanema 1, possuem somente um ponto de monitoramento. A última não será incluída das análises por haver apenas 2 coletas.

Além disso, vamos explorar a conveniência dos dados, por meio das épocas do ano (Verão, Outono, Inverno e Primavera) e também a condição do tempo no momento de coleta .

Época

Clima

No gráfico da época do ano, o pontilhado demarca o ponto (25 %) que seria a proporção balanceada entre as épocas. Não é o caso das coletas de praticamente todas as bacias hidrográficas, poucos dados foram coletados no verão. Possíveis explicações, período de férias e também de repasse de verbas do governo no planejamento.

No gráfico do clima, a mesma ideia vale para o (33%). A maioria das coletas foi realizado com o dia em que a condição estava boa. Infelizmente a informação da condição esteve ausente em todas as bacias hidrográficas, chegando a quase 50% no Iguaçu.

Então temos um base de dados por conveniência e observacional devido a assimetria de informação entre as categorias.


Além de uma questão geográfica nas bacias hidrográficas existe todo um entorno jurídicos de monitorameto. As unidades hidrográficas como são tratadas, são responsabilidades dos comites de bacias que discutem, planejam e atuam na preservação e uso da qualidade da água. Ao mesmo tempo também definem o enquadramento dos rios.

O enquadramento impõe dois aspectos: assegurar à qualidade compatível com os usos mais exigentes a que forem destinadas e diminuir os custos de combate à poluição das águas, mediante ações preventivas permanentes. O enquandramento é definido pelas classes com seus respectivos usos da água, quanto menos restritivo o uso for, maior é a classe, conforme figura à seguir. A título de curiosidade o rio Tietê é classe 4, sendo destinado á paisagismo e navegação. (Poluiram tanto…..)

Classe Qtde %
1 651 8.18
2 6806 85.49
3 290 3.64
Não Informado 214 2.69

A tabela sumariza a quantidade de dados e proporção de coletas nas respectivas classe. A maioria dos rios pertencem a classe 2, com (85%). Na base de dados não há registro de mudança de enquadramento. Para conferir a lista dos enquadramentos por rio em cada bacia hidrográfica acesse a portaria.

Sendo assim, para facilitar o monitoramento, a CONAMA (Conselho Nacional do Meio Ambiente) indica os limites e máximo dos parâmetros conforme a classe disposto na resolução 357/2005.

Table 2: Limites Conama
Variável Unidade de Medida Classe 1 Classe 2 Classe 3 amplitude
Oxigênio Dissolvido (OD) mg/L >6 >5 >4 0-9.2
Coliformes Fecais (CF) NMP/100ml <200 <400 <1000 \(0 -\inf\)
Demanda Bioquímica de Oxigênio (DBO) mg/L <3 <5 <10 \(0 - \inf\)
Sólidos Totais (ST) mg/L <500 <500 <500 0 - \(\inf\)
Coliforme Totais (CT) NMP/100ml <1000 <5000 <20000 0 - \(\inf\)
PH [6 - 9] (Neutro) [6 - 9] (Neutro) [6 - 9] (Neutro) 0 - 14

A seguir faço uma breve descrição de importância e impacto de cada um. Caso queira mais detalhes na compreensão dos parâmetros.

  • Oxigênio Dissolvido (OD): A concentração de OD na água é essencial para os ciclos de vida de peixes, uma vez que o oxigênio está envolvido em praticamente todos os processos químicos e biológico. O déficit extremo de OD pode levar uma mortandade de peixes nos rios, por asfixia, e por consequência a prevalência de seres anaeróbicos (Não necessita de oxigênio para sobreviver), caracterizadas por uma coloração escura e gases odoríferos, que ocasionam incômodos às populações ribeirinhas.

  • Coliforme Fecais (CF) : Coliformes fecais, são bactérias que estão presentes em grande quantidade no intestino de animais. Num curso d’água pode estar relacionada com o lançamento de esgotos domésticos. Podem transmitir doenças como hepatite, cólera e disenterias.

  • Demanda Bioquímica de Oxigênio (DBO): A DBO indica a quantidade de oxigênio consumido nos processos biológicos de degradação da matéria orgânica no meio aquático. É, portanto, um indicador das cargas orgânicas nos corpos hídricos. Cargas orgânicas provenientes de esgotos domésticos não tratados têm forte influência no aumento da DBO, sobretudo em rios e córregos de pequeno porte e com capacidade limitada de autodepuração, em outras palavras do próprio rio se tratar.

  • Sólidos Totais (ST) : Os ST correspondem ao material que permanece como resíduo após a evaporação e secagem da coleta. O excesso de sólidos dissolvidos na água pode causar alterações no sabor e problemas de corrosão. Já os sólidos em suspensão provocam a turbidez (Opacidade) da água, gerando problemas estéticos e prejudicando a atividade fotossintética.

  • Coliformes Totais (CT) : Assim como os CF, inclue mais bactérias, no caso consiste nos vários gêneros de bactérias pertencentes à família Enterobacteriaceae.

  • Potencial Hidrogeônico (pH): O pH é um parâmetro definido no intervalo entre 0 a 14. O pH neutro (igual a 7) não indica necessariamente uma pureza da água, mas um equilíbrio entre substâncias ácidas e alcalinas, e alterações no pH da água podem afetar a fauna e flora aquática.


Portanto, vamos verificar o percentual das coletas que atende a regulamentação da CONAMA nas bacias hidrográficas por enquadramento.

Oxigênio Dissolvido

Coliformes Fecais

Demanda Bioquímica de Oxigênio

Sólidos Totais

Coliformes Totais

PH

O parâmetro OD, a maioria das coletas foram adequadas nas classes 1 e 2 para todas as bacias hidrográficas. A mesma situação ocorre com a DBO, assim como ST. Ao contrário, a situação dos parâmetros CF e CT, é preocupante, pois mesmo em situações em que exige maior atenção quanta ao uso, na maioria das bacias hidrográficas obtiveram valores incompativeis com a regulamentação.

A bacia hidrográfica do Iguaçu é a única com rios que pertencem a classe 3. Os resultados da classe 3 são bem preocupantes, os parâmetros, OD, CF, DBO, ST e CT, apresentam resultados críticos. A maioria das coletas não atende a regulamentação imposta, inclusive, houve resultados que foram além da capacidade de medição do equipamento, sendo denominados de limite excedido. Um sinal que, dado um rio classificado com menos exigência ambiental, parece se preocupar bem menos com sua a qualidade.

Como complemento de discussão e levando em consideração as coletas ao longo do tempo, vamos explorar as séries históricas por bacia.

Sendo assim, temos interesse em explorar esta informação ao longo do tempo e também com a seguinte pergunta, a qualidade da água variou ou não ao longo do tempo em cada parâmetro. Como temos bacia hidrográficas, com diferentes rios, e principalmente diferentes periodicidade e quantidade de coletas por estação de monitoramento.

A figura a seguir mostra 4 exemplos de pontos de monitoramentos com coletas distintas. Os valores representam a diferença de dias entre a última coleta.

As técnicas tradicionais de séries temporais não são adequadas, portanto, optou-se por usar técnicas não paramétricas. Técnicas não paramétricas são flexíveis para ajustar nos dados, sem necessitar pressupostos. Entretanto as inferências são de ordem descritivas e visuais.

A família de modelos usada para descrever são os ajustes suavizados, smoothies methods. Dentre as diversas abordagens que existem, optei pelo método polinômio local, também denominado de lowess, por ser robusto a outliers (valores extremos) e se adaptar nos limites do gráfico, porém são mais pesados computacionalmente. A seguir um gif mostrando a ideia do método.

Repare que ao decorrer da imagem, são feitas regressões em segmentos do gráfico. A linha vermelha é o resultado após completar todo o ambiente gráfico. À medida que é feita a regressão, somente os pontos definidos na amplitude determinada são usados, no caso os pontos pretos destacados.

A amplitude define o quão suave será a curva, quanto menor a amplitude, mais refinada é a linha vermelha. Repare nos diferentes resultados variando os as amplitude (span). O span representa a porcentagem (%) de dados usada em cada regressão. Além de definir a amplitude, é também possível acrescentar um termo quadrático na regressão (linha azul), tendo como resultado, mais flexibilidade na captura da tendência dos dados.

Outro aspecto nessta técnica é que cada ponto contribui com pesos diferentes. O peso é definição por uma função de probabilidade, geralmente gaussiana, assim valores mais próximos do centro da reta contribuem mais, e à medida que se afastam, de acordo com a distribuição normal. Porém outras funções de pesos podem ser definidas.

O gif exposto foi encontrado no bookdown de data science, desenvolvido pelo Rafael A Irizarr. No material também é possível consultar outros métodos de suavização. Outro material complementar e mais teórico de ajustes não parámetricos está diponível no livro Elementals of Statistica Learning no capítulo 6.

Na aplicação, usei a função default do ggplot com os parâmetros span = 0.75, usando um função gaussiana e uma regressão polinomial quadrática.

Oxigênio Dissolvido

Coliformes Fecais (log)

Demanda Biológica de Oxigênio

Sólidos Totais (log)

Coliformes Totais (log)

PH

Cada painel gráfico é uma bacia hidrográfica, a linha vermelha acompanhada de uma margem é o ajuste suave e a linha verde é a média de todo o período. Sendo assim, interpretamos o gráfico da seguinte maneira, se a linha verde estiver toda ou grande parte entre a áreas vermelhas, então a qualidade do parâmetro permaneceu estável, não oscilou ao longo tempo. Por exemplo no parâmetro OD, a bacia de Ivaí está totalmente sobreposta. Por outro lado, a Bacia do Iguaçu, diminui a qualidade ao longo do tempo.

Optei por manter a mesma escalas nos eixos para todas as bacias hidrográficas, (exceto DBO), pois é possível comparar as oscilações entre as bacias, como no caso das bacias litorânea e Paraná 3 no Parâmetro CF. Paraná 3 apresentou um decaimento de qualidade mais acentuado ente os anos 1990 a 2000, pois a distância entre a linha média (verde) e o ajuste (vermelha) é maior. O parâmetro DBO está em escala diferente pois há muitos valores extremos, principalmente na bacia do Iguaçu.

Repare nas margens do ajuste (linha vermelha), o tamanho da margem é inversamente proporcional a quantidade de dados, logo a bacia do Iguaçu praticamente não é possível distinguir as margens do ajuste. As variáveis CF, CT e ST optei em mostrar na logaritímica, devido a amplitude do parâmetro.

Interpretando os resultados de todos os ajustes, a qualidade do PH e ST permance a mesma em todas as bacias. Na qualidade CT,CF e DBO, a maioria das bacias registra aumento do indicador, o que na prática é péssimo para qualidade da água. Já o paraâmetros OD, apresentou uma queda entre 1990 a 2000, mas logo manteve-se ao nível inicial de coleta. Outra informação que chama a atenção é a Bacia do Iguaçu em todos os parâmetros apresenta os piores resultados, justamente a bacia mais monitorada, nascente em curitiba e que desagua em Foz.


Apesar da imagem de chamada ao post ser de um rio, aparentemente limpo e bem tratado. A situação do Paraná não está equivalente a essa foto, principalmente na Bacia Hidrográfica mais monitorada do Estado (Iguaçu). Além do mais, os regulamentos da CONAMA estão bem distantes nos parâmetros CF e CT, ainda mais nos rios enquadrados de classe 3.

Ao longo do desenvolvimento do TCC e nas reuniões durante o estágio no MPPR no orgão AGUASPARANÁ, reparei que, as análise de dados eram muito defasadas, já que não havia um profissional específico no tratamento e criação das análise. Assim como todo o ciclo de análise, os banco de dados eram formatados em planilhas excel, com aqueles cabeçalhos carnavalesco.

Por mais que exista esses problemas, o desafio e abundância dos dados é imenso. São dados de séries temporais, localizadas no espaço geográficos e com hierarquia. Da bacia hidrográfica, composta por vários rio e os diversos pontos de monitoramento ao longo do trajeto. E a resposta dos parâmetros pode ser contínua ou categórica.

Se interessou em analisar os dados: A ANA disponibiliza mais de 20.000 pontos de monitoramento com as coletas no portal. Um ótima material de apoio e compreensão da situação das bacias hidrográficas do país, é os relatório de conjuntura da Agência Nacional de Águas (ANA). O material aborda o assunto de maneira panorâmica, linguagem acessível e didática, no decorrer de 5 capítulos. O ciclo da Água, Quantidade e Qualidade da Água, Usos da Água, Gestão da Água e Crise da Água.