Professor Doutor

Continuando a explorar a informação do site do parlamento quisemos ver se a ideia de que na Assembleia da Republica predominam os advogados era real.

Assim sendo pegamos na informação disponibilizada por este serviço e criamos uma nova tag cloud usando o wordle.

Curiosamente, pelo menos para mim, também temos um grande número de professores entre os nossos deputados. Não é seguramente por falta de capacidade técnica e científica que os trabalhos no parlamento serão melhores ou piores.

A única alteração que fiz em relação à informação estava no site do parlamento no passado dia 6 e 7 de agosto foi mudar o género das profissões de forma a ser sempre a versão masculina.

Share

O Manel e a Maria

(publicado inicialmente no aventar a 8-ago-2010)


Recentemente foram publicadas as estatísticas da actividade dos nossos deputados. Essa é uma informação interessante na medida em que ter uma visão quantitativa do que fazem os nossos representantes é sem dúvida melhor do que não ter nenhuma ideia do que fazem.

Claro que, na minha opinião, este tipo de trabalho não seria feito só uma vez por ano, mas sim continuamente, nem teria que ser necessariamente feito pela A.R., podiam simplesmente dar-nos as ferramentas para nós, cidadãos, usando as ferramentas da web 2.0 fazermos nós próprios a nossa análise.

Como ainda não temos uma forma fácil de aceder à vastíssima informação que o site do parlamento disponibiliza, e quando digo fácil quero dizer à moda do sec xxi ou seja automatizável, referenciável, etc., um grupo de pessoas achou que podia contribuir na criação dessa infraestrutura.

Quem estiver interessado em pormenores técnicos ou nos dados que construíram esta, e outras, visualizações entre em contacto com esse grupo. Se só quiserem ver o resultado final fiquem atentos ao Aventar.

Ah!, a imagem é uma tagcloud de todos os nomes de todos os deputados cuja informação estava no site do parlamento no passado dia 6 e 7 de agosto.

Share

hackday sessao 1

A primeira sessão de trabalho do hackday transparencia serviu para partilhar algumas coisas que cada um de nós já tinha feito e perceber de que forma nos podemos integrar nos diferentes projectos possíveis.

Neste momento há dois caminhos a ser explorados, ambos a partir da informação disponivel online no site da assembleia da republicar.

O primeiro tem como objectivo disponibilizar de uma forma mais interessante os dados do Diario da Assembleia da Republica. Para quem não conhece este diário tem a transcrição de tudo quanto é dito na AR.
A ideia é disponibilizar esses dados num formato não proprietário e acrescentar uma camada de informação que permita responder a perguntas como o que disse o deputado xxx sobre o tema yyy.
Claro que depois se podem construir também algumas coisas giras como o medidor de muito bens (sim essas afirmações também estão nesse diário da assembleia da republica).

O segundo tem como objectivo permitir explorar a informação dos deputados e suas actividades, informação essa que está nestas páginas.
Neste momento embora essa informação esteja toda online não existe nenhum interface que permita responder a questões como:
- qual o deputado com mais intervenções?
- como tem evoluido a representação das profissões ao longo das legislaturas, ou seja, provavelmente achamos que a a.r. é essencialmente constituida por pessoas ligadas à advocacia e similares mas será que é mesmo assim, e como tem variado?
- qual a legislatura com a idade média dos deputados mais alta? como tem variado? será que neste orgão também se nota aquilo que se diz de as novas gerações não estarem interessadas na participação pública?

O ricardo que está a trabalhar no primeiro projecto já desenvolveu um script que descarrega um diário, converte-o de pdf para txt e “anota-o” com alguma informação especifica para percebermos por exemplo onde estão os nomes dos deputados.
Falta-nos perceber ainda de que forma e que tipo de anotações vale a pena incluir nesse txt e se o convertemos para outro formato e claro saber depois como exploramos essa informação.
Uma ideia interessante seria por exemplo ter uma coisa parecida com o verbatim para explorar as citações dos deputados.
Esta área da exploração de texto livre é bastante desconhecida para mim que estou mais habituado a dados mais sistematizados como tabelas relacionais e afins por isso se quiserem contribuir com ideias estão à vontade.

Eu e a claudia estivemos a trabalhar no segundo projecto principalmente na parte da extracção de dados do site da a.r. Fizemos um pequeno scraper que aproveita o facto de as páginas da a.r. estarem construidas de tal forma que nem precisamos de nos perder em regular expressions e afins.
É um script bem comportado que faz propositadamente um número reduzido de pedidos por minuto e que extrai essa informação uma base de dados MySQL.
O objectivo é criar algo (feeds ou outros) que permita que outras equipas trabalhem essa informação.
Ficou a ideia de explorar o yahoo pipes para tentar fazer o mesmo processo de uma forma mais simples.

O tiago e o victor estiveram a ver como se poderia utilizar plugins drupal para explorar a informação dos deputados do segundo projecto. A ideia é reinventar o menos possivel.

A ana para além de criar o blog esteve também a fazer umas primeiras experiências com os dados que já extraimos dos deputados. Para isso criou uma tagcloud com as profissões indicadas dos deputados. Percebemos que vamos ter que ter algum processo de limpeza ou normalização da própria informação para evitar por exemplo situações de profissões que aparecem em duplicado por causa da forma como estão escritas.

(também publicado aqui)

Share

Hackday Transparência

Depois de uma primeira troca de ideias à cerca de um mês, amanhã 17-jul vai haver um primeiro encontro já com o objectivo de por a mão na massa…
o objectivo é criar ferramentas que utilizem informação pública e disponível online e dar-lhe uma visão mais interessante para o cidadão.
Nesta primeira tentativa vamos trabalhar sobre os dados do site da assembleia da república.
Estou curioso por ver qual vai ser o resultado
se estiverem interessados em perceber o que estamos a fazer ou sugerir formas de o fazer apareçam

Share

Fomentar a transparência

Na semana passada o TAF dizia no seu twitterÉ impressionante como princípios _básicos_ de transparência na política são vistos com desconfiança pelas estruturas partidárias!“, a propósito da sua moção para colocar online o vídeo das assembleias municipais e que “foi derrotada por larga margem“.
Não consigo perceber que argumentos podem ser invocados para não aprovar uma medida que por exemplo Tomar e Redondo já usaram ou começaram a testar… (update 20100619 e também cascais) se alguém quiser apresentar alguns argumentos terei todo o gosto em tentar rebatê-los ou então assumir que realmente é uma má ideia.
Actualmente a única resposta que me ocorre é que como não é uma medida inovadora (porque até já é feita em concelhos de menor dimensão) então não interessa…

Quase na mesma altura uma pessoa que conheci do Brasil falava-me do site que foi criado no seu estado natal de Rio Grande do Sul que contém a informação de todos os gastos efectuados pelo Estado, e quando digo todos os gastos é mesmo todos, aparecendo os valores detalhados até praticamente ao nível da factura.
Lembro-me de há uns 7 anos ter feito uma aplicação do género para uma associação empresarial. Os gestores queriam saber se as receitas e as despesas estavam a seguir de acordo com o orçamentado e então compraram uma aplicação que detalhava toda essa informação indo desde a visão consolidada do grupo e diferentes empresas até à factura que tinha dado origem a essa despesa.

Numa organização pública, em que os contratos são públicos, em que os vencimentos são tabelados, em que os orçamentos são anunciados todos os anos não faz sentido aqueles que são provavelmente os principais “stakeholders” (para além de sermos stockholders) e que são os cidadãos não terem um acesso à moda do século xxi (online, completo, actualizado, atempado, referenciável, não proprietário, machine-readable) a essa informação. Alguns políticos podem ter medo dessa perspectiva porque acham que as pessoas vão interpretar mal esses dados… mas esquecem-se é que isso é uma oportunidade para explicar melhor aquilo que querem fazer com a “coisa pública”.

Este tipo de mudança é importante porque como dizia Raul Moreira Vidal na conferência Talks 2.0 (que podem ouvir no Porto em Conversa) um dos nossos problemas como sociedade é que ninguém confia em ninguém.
Referindo-se concretamente ao exemplo nórdico dizia que uma das diferenças para esses países era o facto de eles centrarem a construção da sociedade num principio que é a confiança, enquanto que em Portugal é o contrário.

Share

Transparência e acesso à informação como suporte à inovação

O facto de vivermos cada vez mais num mundo “always on” e “always connected”, em que a possibilidade de gerar e aceder a grandes volumes de dados está cada vez mais facilitada, tem criado as condições propícias para o aparecimento de soluções inovadoras no campo da visualização de dados como se pode ver nos projectos da Stamen Design ou no catálogo que tem sido desenvolvido por Manuel Lima no site VisualComplexity.

Para além da tecnologia, também o esforço de divulgação e discussão de ideias que movimentos ligados ao “Open Access” e “Open Data” têm feito e que destacam a importância da mudança de paradigmas de divulgação de informação tendencialmente fechados, incompativeis e não automatizáveis têm sido importantes para demonstrar que este é um caminho possível mesmo considerando as sempre necessárias questões de privacidade.

E se podemos argumentar que a inovação aparece simplesmente porque foi criada uma nova área de oportunidades, pelo facto de ser disponibilizada uma matéria-prima (dados) que não existia antes, também podemos sugerir que a interacção necessária entre os diferentes actores que podem explorar estes dados e que têm normalmente bases de conhecimento relativamente distintas (da ciência às artes) é um bom combustível para alimentar este ambiente.

Finalmente, seria interessante perceber de que forma algumas das experiências que têm sido feitas por alguns estados na divulgação de informação poderiam ser replicadas ao nivel empresarial, um pouco no espírito da ideia de Transparência Radical, por forma a criar novas áreas de inovação dentro das empresas.

Share

Dados Públicos #opendata

Nos anos mais recentes uma das tendências da web, e particularmente da web social, tem sido a criação de uma cultura de abertura no que diz respeito ao acesso a dados.

O principal objectivo por detrás de grande parte destas iniciativas, que se agrupam na expressão “open data“,  é aumentar a transparência de algumas instituições e torná-las mais escrutinaveis bem como permitir que outras instituições e individuos possam, de uma forma “século-21-simples”, aceder e explorar essa informação.

Algumas das primeiras iniciativas deste género com maior visibilidade foram levadas a cabo de uma forma estruturada pela Sunlight Foundation por exemplo com as iniciativas Open Congress / Money Trail ou MapLight e, como se percebe, o principal domínio de actuação eram os dados recolhidos por ou relacionados com a administração pública.
O principal argumento que justifica esta opção é o facto de, na grande maioria dos casos, estarmos a referir-nos a informação que diz respeito aos próprios cidadãos e suas actividades e que inclusivamente foi recolhida usando meios fornecidos pelos próprios cidadãos, através dos seus impostos, sendo por isso expectável que essa informação seja devolvida aos seus proprietários.


Continue reading

Share

dados públicos

Por dados públicos entendo dados recolhidos por qualquer organismo público e que actualmente já possam ser requisitados livremente pelos cidadãos.

Na minha opinião deveria ser promovida a disponibilização dessa informação digital, em formatos abertos, através de plataformas facilmente “descobriveis” (findable) e “inquiriveis” (queriable).

Este processo deveria aplicar-se aos diferentes niveis de administração pública: central, regional, autárquico.
Deveria ser tão fácil encontrar dados sobre a população portuguesa (que mais ou menos facilmente encontramos no site do INE) como sobre o orçamento da mais pequena Junta de Freguesia.

Assim como um computador (hardware) não serve para nada sem um sistema operativo e outras aplicações (software), também o software não serve para nada sem dados para o alimentar.

Penso ainda que este é um ponto que pode contribuir decisivamente para questões cada vez mais importantes como a transparência e o escrutinio da utilzação de recursos públicos.

A seguir incluo uma apresentação daquilo que temos actualmente, porque me parece insuficiente e para onde poderíamos caminhar

—————-

O que temos actualmente
Em Portugal já temos alguns bons exemplos de disponibilização online de informação, como o site do INE e do Banco de Portugal, no entanto quem quiser construir algum tipo de trabalho em cima desses dados, seja um site para exploração de informação, seja uma análise estatística para uma dissertação de doutoramento, seja uma simples reportagem jornalística, terá sempre que passar pelo processo altamente ineficiente de aceder ao site, descobrir os indicadores a usar, exportar os resultados para um dos formatos disponíveis (excel, csv, …), copiar essa informação para o seu próprio software e só depois começar a explorar essa informação.

Este processo, para além de altamente improdutivo e ineficiente, cria também mais um nível de entropia na medida em que se perde a rastreabilidade em relação à fonte de dados… quando quiser voltar a ir buscar a mesma informação terei que efectuar todo o processo novamente… não há um mecanismo automatizável que me permita fazer tudo de uma só vez.
O ideal seria ter algo do tipo: www.ine.pt/indicadores/populacaoResidente/nutsII/2007?formato=xml
Este endereço deveria devolver os dados referentes à população residente em portugal, dividido por nuts II, em 2007, sendo esses dados devolvidos em formato XML.
Este método poderia ainda facilitar a actualização automática de informação que se perde quando copiamos informação entre sistemas na medida em que o mesmo endereço poderia fornecer os dados mais actualizados quando estes são sujeitos a correcção.

De notar que a opção que quer o INE quer o Banco de Portugal têm actualmente é uma solução que assenta no paradigma de que quem recolhe informação tem também que disponibilizar os meios para a visualizar.
Essa opção, inquestionável há uns cinco anos, já não é tão premente numa altura (da chamada web2.0) em que as ferramentas para trabalhar dados e grandes volumes de dados começam a estar disponiveis para um número cada vez mais alargado de pessoas. veja-se o ecossistema dos chamados mashups construidos em cima de apis (pt.wikipedia.org/wiki/API) públicas

Outros exemplo são os sistemas de informação geográfica que alguns sites de câmaras municipais disponibilizam como por exemplo a carta dos valores arquitectónicos que a cm-porto disponibiliza (http://sigweb.cm-porto.pt/munisigweb/mapviewer/sectionsviewer.aspx?id=29).
De facto a informação aí disponibilizada já está num formato digital mas, mais uma vez, obriga a que seja utilizada a plataforma que a própria câmara oferece. Para além disso, neste caso específico, não é sequer possível exportar a informação para um formato standard. O grande contra desta opção é que não consigo pegar na informação aqui disponibilizada, junta-la com informação que recolhi de outro serviço online (por exemplo população por freguesia ou simplesmente o tempo) e criar um novo serviço.
Na verdade a informação que é disponibilizada desta forma não difere muito da informação que só está disponivel quando temos que ir a uns serviços camarários, preencher um requerimento e depois esperar que alguém se digne a nos responder.

Outro exemplo de informação que aparentemente já está online mas que na verdade é pouco mais do que ter essa informação numa prateleira real de uma biblioteca são os documentos não sistematizados de informação facilmente sistematizável. Um exemplo concreto: os orçamentos camarários.
Provavelmente todos os sites das câmaras municipais disponibilizam um pdf com o documento que foi apresentado à assembleia municipal mas se nos perguntarmos que tipo de análise se consegue fazer facilmente a partir desse documento percebemos que não conseguimos muita coisa.
E a palavra chave aqui é o facilmente. Se temos informação em formato digital porque razão ela não há-de ser facilmente trabalhada?
Por exemplo, é fácil sistematizar a comparação entre anos das diferentes rubricas do orçamento? quanto prevejo gastar este ano em relação ao que gastei nos últimos cinco anos?
E se quiser comparar os orçamentos de câmaras municipais com populações semelhantes? por exemplo como compara o orçamento de uma câmara com 200.000 habitantes no Norte com outra de 200.000 no Sul? Ou uma outra com entre 50 e 75 mil habitantes no litoral com outra do género no interior?
Se temos os orçamentos em formato digital e temos a informação do número de pessoas por concelho também em formato digital o que falha aqui?
O que falha é o formato. Para este caso (e outros similares) deveria ser criado algo parecido com o SAFT que as empresas têm que entregar e que deveria ser acessivel através do site das próprias câmaras.
A minha proposta seria ter algo como:
www.camara-municipal.pt/orcamento/todasContas/2008
www.camara-municipal.pt/orcamento/cultura/2008

—————-

Que dados disponibilizar?
# que dados é que são / devem ser públicos
# que questões de privacidade se podem levantar

certamente que há questões de privacidade que se podem levantar quando disponibilizamos informação. não sou um especialista nesta área mas exemplos como o site http://transparencia-pt.org/ que inclui nomes de empresas e valores de contratos, ou a lista de devedores ao fisco fazem-me pensar que no essencial toda a informação contabilistica dos organismos públicos deve ser pública, desde as contas agregadoras do poc até à factura.
também informação indirecta recolhida pelos serviços da administração pública deve estar online. por exemplo o ministerio da economia tem a responsabilidade de verificar todas as bombas de gasolina do país, isso quer dizer que tem que saber onde elas estão, e se elas existem e são públicas porque não há-de essa informação estar online?
muitos outros exemplos existirá certamente. o principio de fundo aqui é: se essa informação foi obtida por um organismo público e que portanto pertence a todos nós então essa informação também deveria ser pública.

—————-

Outras questões

>>1. A quem interessa essa informação disponibilizada?
acho que isso não é assim tão importante porque na verdade quase nunca conseguimos antecipar os usos verdadeiramente inovadores e interessantes que podem aparecer quando algo de novo é disponibilizado ao mundo.
por exemplo quem é que imaginava que pelo simples facto de se ter criado uma coisa tão geeky como o protocolo http hoje teríamos esta realidade quase ubiqua que é o mundo online

>>2. Como evitar que informação relevante seja apresentada e não possa ser escondida?
toda a informação relevante tem que ser apresentada a alguém porque senão não é informação, é uma amontoado de dados que na verdade não serve para nada.
a questão que se levanta com a informação em formato digital é que ela dá visibilidade a problemas que já existiam.
problemas de privacidade ou de acesso à informação sempre existiram mas normalmente eram resolvidos pela simples razão de que essa informação estaria numa estante não identificada numa sala de um edifício que quase ninguém sabia que existia ou onde ficava… mas bastava ter essa informação indirecta (onde estavam as coisas) e conseguíamos chegar à informação.
é mais ou menos parecido com o conceito “security by obscurity”  http://en.wikipedia.org/wiki/Security_through_obscurity ou seja a segurança que implementas não é propriamente intrínseca ao processo mas antes é obtida pela dificuldade em conseguir saber sequer o que existe.

—————-

Iniciativas noutros países
http://vancouver.ca/ctyclerk/cclerk/20090519/documents/motionb2.pdf – Open Data, Open Standards and Open Source
http://ascher.ca/blog/2009/05/15/open-vancouver/ – open vancouver
As Sir Tim Berners-Lee (the creator of the web) discusses in this 15-minute TED talk, the simple act of releasing public data enables others to create value.  Of course, as the motion indicates, personal privacy rights trump, and we don’t want to release data on individual citizens — luckily that’s not needed in order to enable value creation.

http://oakland.crimespotting.org/

http://scilib.typepad.com/science_library_pad/2009/06/uk-open-data-open-government.html – uk open data, open government

Share

Notas sobre open data

A propósito do post data.gov, dados e portugal.

“The purpose of Data.gov is to increase public access to high value, machine readable datasets generated by the Executive Branch of the Federal Government.”

Esta questão da disponibilização online de dados que pela sua natureza são públicos interessa-me bastante até porque está bastante ligada com a necessidade de termos ferramentas que facilitem o escrutínio das opções que são tomadas pelos decisores públicos.
Há várias questões aqui que poderiam ser interessantes abordar:

  • que dados é que são / devem ser públicos
  • que questões de privacidade se podem levantar
  • como é que esses dados devem ser disponibilizados de forma a se poderem facilmente transformar em informação… os ficheiros de excel ou csv que muitas vezes estão online são de dificil tratamento
  • para que é que queremos ter esses dados públicos? aumentar a transparência e escrutínio das instituições; dados como infraestrutura para quem queira criar produtos que assentam na exploração desses dados (mashups e afins)
  • exemplos noutros países de mashups com exploração de dados publicos http://stamen.com/clients/cabspotting; http://oakland.crimespotting.org/
  • que exemplos já temos em portugal (ine, banco de portugal), como comparam por exemplo com o data.gov
  • e eventualmente sugerir ideias como os organismos publicos podem utilizar as ferramentas da web2.0 para atingir estes objectivos de abertura e transparência

Na minha opinião e tendo em conta só aquilo que conheço (e que naturalmente pode ser insuficiente) diria que Portugal está bastante avançado na disponibilização de alguma informação no que diz respeito aos indicadores macro, mas quando passamos para coisas mais finas como por exemplo saber que licenças de construção foram atribuídas num determinado concelho numa data especifica então aí nem com screen scrapping chegamos lá.

Como pessoa que gosta de explorar como os dados se podem transformar em visualizações apelativas e informativas fazem-me falta ainda alguns dados (que são normalmente actos públicos e que por isso acho que deveriam estar online) e, principalmente, que esses dados sejam passiveis de tratamento automático sistematizável.

Ver outras ideias sobre este tema em: “Publicidade de Informação

Share

Regionalização – população

Uma das motivações menos “cientificas” para querer a regionalização é o “feeling”, no sentido de, tenho um feeling que alguma coisa vai mal no país e por isso se calhar é melhor mudarmos.

Um dos feelings prevalecentes é que a organização actual do estado não tem contribuído para o reequilíbrio da distribuição de pessoas pelo país, e de que esse desequilíbrio até pode ter aumentado.

De forma a validar ou não esse feeling resolvi fazer um mapa com a distribuição de população por nuts3 e ver como ele se comporta ao longo dos anos. A cor vermelha quer dizer que houve diminuição de população entre o ano indicado e o anterior, a verde o que houve aumento.

Variação da População entre 1991-2007

Como se pode ver no mapa é fácil constatar que nos último 18 anos praticamente todo o interior (e quase em todos os anos) continuou a perder população, que em parte terá ido para o litoral.
Os dados usados para esta comparação foram

Se olharmos para os dados base, e comparando as duas séries de forma independente de forma a evitar possíveis incongruências entre elas podemos ver, no periodo 2001-2007

Padrões mais ou menos semelhantes (embora com amplitudes maiores) surgem ao analisar os dados correspondentes a 1999-2000.

Uma nota para dizer que os dados referentes à subregião oeste não estão a ser representados já que apresentam uma discrepância muito grande nos limites das duas séries (ano 2001 da serie 2000-2007; ano 2000 serie2 1991-2000) que me levam a pensar que possa ter havido alguma alteração de critérios entre estes 2 períodos.

Variação de população entre 2001-2007

Share