Reusability – Facilitar a reutilização de dados

Fornecer uma quantidade adequada de dados

Publicar todos os dados que sejam pertinentes, tendo em conta a sua utilidade, e evitar publicar ficheiros demasiado grandes, dividindo ficheiros muito grandes em ficheiros mais pequenos, caso seja necessário.

De seguida são ilustrados dois exemplos. No exemplo incorreto, o ficheiro contém dados de tráfego para um período de 6 anos e tem quase 1 GB. No exemplo correto, os dados foram separados por ano em 6 ficheiros, tornado cada um consideravelmente mais pequeno e possibilitando o download de dados para apenas determinado ano em vez de ser necessário descarregar todos os dados.

Exemplo incorreto em que o ficheiro tem um tamanho excessivo
Exemplo correto onde os dados foram disponibilizados por ano, tendo cada ficheiro um tamanho aceitável

Considerar utilizar standards de comunidade

Sempre que aplicável, utilizar standards de comunidade para facilitar a reutilização de dados, uma vez que os dados que seguem a mesma norma têm um aspeto semelhante e estão organizados da mesma maneira. Para além disso, para alguns standards existem validadores de ficheiros que facilitam a validação da consistência dos dados e o seu processamento.

De seguida é mostrado um exemplo com uma mensagem de erro resultante de uma validação Shapes Constraint Language (SHACL) face ao standard de comunidade DCAT-AP, a indicar que o valor presente na propriedade dcterms:publisher não é do tipo exigido.

Exemplo incorreto com uma mensagem de erro resultante de uma validação SHACL face ao standard de comunidade DCAT-AP

O exemplo que se segue mostra um conjunto de dados com um recurso XML que se encontra em conformidade com o respetivo SCHEMA.

Exemplo correto onde o conjunto de dados tem um recurso XML que se encontra em conformidade com o respetivo SCHEMA

Remover duplicados

Verificar a existência de duplicados e remover os que forem detetados, uma vez que a existência de duplicados reduz a qualidade dos dados, podendo causar erros durante o seu processamento e análises enviesadas.

De seguida são ilustrados dois exemplos, um incorreto, onde se mostra um ficheiro CSV com linhas duplicadas, e um correto onde todas as linhas são distintas.

Exemplo incorreto, à esquerda, onde o ficheiro CSV tem linhas duplicadas e correto, à direita, onde todas as linhas são distintas

Aumentar a precisão

Verificar qual a precisão dos dados e aumentá-la sempre que possível. A título de exemplo, a precisão de dados referentes a datas pode ser medida em relação a um formato de codificação como o ISO 8601.

No exemplo incorreto que se segue, se a conformidade da coluna “Tempo de visualização” fosse avaliada face ao formato de codificação ISO 8601, indicaria uma pontuação de 50%. No exemplo correto, todas células estão corretamente codificadas, e a pontuação seria de 100%.

Exemplo incorreto, à esquerda, onde a precisão dos dados relativos ao “Tempo de visualização” é baixa. No exemplo correto, à direita, a precisão é de 100%

Disponibilizar informação relativa ao tamanho dos ficheiros

Fornecer informações sobre o tamanho dos ficheiros em bytes, permitindo que sejam filtrados por tamanho e que utilizadores e processos automatizados antecipem o que é esperado antes de serem descarregados.

De seguida é ilustrado um exemplo incorreto, onde não é indicada a propriedade dcat:byteSize, e um correto onde é indicado o tamanho do ficheiro em bytes nessa propriedade.

Exemplo incorreto onde não é de disponibilizada informação relativa ao tamanho do ficheiro
Exemplo correto de disponibilização da informação relativa ao tamanho do ficheiro

Last updated