Open Data

opendata

Com o advento da Internet, e a Era da Informação, surgiu um movimento para a abertura dos dados. Este movimento defende o acesso irrestrito a dados, sua utilização e reprodução. Ganhou força com a disponibilização de dados públicos por vários governos, em prol da transparência. Para criarmos o mapa brasileiro da qualidade do ar, recorremos aos que diversos órgãos ambientais atualizam em seus sites.

Embora tenhamos tido o cuidado de informar sobre a constante extração dos dados para consolidação numa base de dados própria, nem sempre a resposta foi positiva. Nossa justificativa sempre foi o entendimento da natureza pública do dado, e a importância em disseminá-lo, mas nem todos os órgãos se sentiram confortáveis com a visibilidade dada, talvez preocupados com possíveis questionamentos.

Dados abertos não são só importantes para replicação, como fazemos hoje no mapa, que inclusive cita como fonte o órgão origem. Dados abertos são imprescindíveis para, após trabalhados, gerar conhecimento, e agregar valor. Os dados de qualidade do ar combinados com os dados de atendimento de pessoas com problemas respiratórios em hospitais públicos, por exemplo, podem indicar o quanto a poluição prejudica a saúde.

A bem da verdade, existe mesmo uma controvérsia com relação às classificações de qualidade do ar adotadas no país. Os profissionais da saúde as consideram pouco rigorosas, pois não seguem as recomendações da OMS (Organização Mundial da Saúde), levando a população a achar que a qualidade do ar está boa, quando na realidade não está. Além disso, argumentam que o cálculo dos índices não é claro, e contestam fatores econômicos porventura usados.

Ao recorrer a dados abertos, é preciso estar ciente que, independentemente da origem, eles podem não ser exatos. Pode existir um grau de imprecisão, o que não os necessariamente desqualifica. Mesmo se os dados fossem obtidos de sensores portáteis, espalhados pela cidade, fatores como as condições físicas do equipamento, sua aferição e a própria transmissão dos dados implicariam numa maior ou menor confiabilidade.

Outro ponto de atenção no uso de dados abertos é a dependência ao formato origem. Quando não existe um padrão, e a fonte pode adotar o formato que quiser, a qualquer tempo, complica. Isto quer dizer que a extração desenvolvida especificamente para aquela origem pode deixar de funcionar de uma hora pra outra, simplesmente porque a fonte resolveu mudar a vírgula de lugar. Normalmente não se conhece quem consome os dados, e não existe o menor compromisso em comunicar qualquer alteração. Monitore, portanto, cada mecanismo automático de extração de dados abertos.

Um formato ruim para extrair dados é o PDF. No vídeo do TED abaixo Ben Wellington fala sobre isso, sobre como a falta de padronização atrapalha, e sobre como descobriu o pior lugar para se estacionar em Nova Iorque: