Reusability – Facilitar a reutilização de dados
Fornecer uma quantidade adequada de dados
Publicar todos os dados que sejam pertinentes, tendo em conta a sua utilidade, e evitar publicar ficheiros demasiado grandes, dividindo ficheiros muito grandes em ficheiros mais pequenos, caso seja necessário.
De seguida são ilustrados dois exemplos. No exemplo incorreto, o ficheiro contém dados de tráfego para um período de 6 anos e tem quase 1 GB. No exemplo correto, os dados foram separados por ano em 6 ficheiros, tornado cada um consideravelmente mais pequeno e possibilitando o download de dados para apenas determinado ano em vez de ser necessário descarregar todos os dados.
Considerar utilizar standards de comunidade
Sempre que aplicável, utilizar standards de comunidade para facilitar a reutilização de dados, uma vez que os dados que seguem a mesma norma têm um aspeto semelhante e estão organizados da mesma maneira. Para além disso, para alguns standards existem validadores de ficheiros que facilitam a validação da consistência dos dados e o seu processamento.
De seguida é mostrado um exemplo com uma mensagem de erro resultante de uma validação Shapes Constraint Language (SHACL) face ao standard de comunidade DCAT-AP, a indicar que o valor presente na propriedade dcterms:publisher não é do tipo exigido.
O exemplo que se segue mostra um conjunto de dados com um recurso XML que se encontra em conformidade com o respetivo SCHEMA.
Remover duplicados
Verificar a existência de duplicados e remover os que forem detetados, uma vez que a existência de duplicados reduz a qualidade dos dados, podendo causar erros durante o seu processamento e análises enviesadas.
De seguida são ilustrados dois exemplos, um incorreto, onde se mostra um ficheiro CSV com linhas duplicadas, e um correto onde todas as linhas são distintas.
Aumentar a precisão
Verificar qual a precisão dos dados e aumentá-la sempre que possível. A título de exemplo, a precisão de dados referentes a datas pode ser medida em relação a um formato de codificação como o ISO 8601.
No exemplo incorreto que se segue, se a conformidade da coluna “Tempo de visualização” fosse avaliada face ao formato de codificação ISO 8601, indicaria uma pontuação de 50%. No exemplo correto, todas células estão corretamente codificadas, e a pontuação seria de 100%.
Disponibilizar informação relativa ao tamanho dos ficheiros
Fornecer informações sobre o tamanho dos ficheiros em bytes, permitindo que sejam filtrados por tamanho e que utilizadores e processos automatizados antecipem o que é esperado antes de serem descarregados.
De seguida é ilustrado um exemplo incorreto, onde não é indicada a propriedade dcat:byteSize, e um correto onde é indicado o tamanho do ficheiro em bytes nessa propriedade.
Last updated