Recomendações para ficheiros CSV
Last updated
Last updated
De seguida são descritas todas as recomendações a ter em conta ao formatar ficheiros CSV. Para recomendações sobre outros formatos, como XML, RDF ou JSON consultar o guia Data Quality Guidelines.
Usar o ponto e vírgula para separar cada valor em vez da vírgula, evitando que esta seja interpretada como um delimitador, uma vez que os pontos e vírgula são utilizados com menor frequência em valores. O delimitador deve ficar sempre entre dois valores e não podem existir espaços ou tabulações antes ou depois.
De seguida é ilustrado um exemplo incorreto, onde duas linhas têm uma tabulação a seguir ao delimitador e onde todas as células têm o último valor seguido por um ponto e vírgula, e outro exemplo correto, onde não existe qualquer espaço ou tabulação antes ou depois do delimitador e o último valor de cada linha não é seguido por um delimitador.
Cada ficheiro CSV só pode conter uma tabela. Se a tabela a publicar for composta por várias folhas, deve ser criado um ficheiro CSV para cada uma, uma vez que uma organização diferente quebraria a estrutura da tabela e iria dificultar a sua interpretação por meios automáticos.
De seguida é ilustrado um exemplo incorreto onde foram incluídas duas tabelas distintas no mesmo ficheiro, e outro correto, onde foram disponibilizados dois ficheiros, cada um contendo uma tabela com uma estrutura distinta.
Garantir que o ficheiro contém apenas dados que pertencem à tabela em si, como os cabeçalhos das colunas e os respetivos valores, uma vez que a inclusão de informação adicional dificulta o processamento porque os espaços em branco e títulos das tabelas também são interpretados automaticamente.
De seguida é ilustrado um exemplo incorreto de um ficheiro que contém o título de tabela e duas linhas vazias (vermelho), quando visualizado no Microsoft Excel.
Na figura que se segue, é ilustrado como o mesmo ficheiro foi lido por um editor de texto, onde a linha do título da tabela e as linhas vazias (vermelho) foram interpretadas.
O exemplo incorreto que se segue ilustra um ficheiro com informações e formatações adicionais, identificadas com caixas de texto, que irão dificultar o processamento automático dos dados.
No exemplo correto que se segue é ilustrada uma versão do ficheiro com os mesmos dados onde todas as informações adicionais foram removidas e o título da tabela foi incluído no nome do ficheiro.
Incluir sempre cabeçalhos das colunas na primeira linha do ficheiro. Os cabeçalhos devem ser, preferencialmente, autoexplicativos, mas caso não sejam, a sua explicação deve ser incluída nos metadados.
De seguida mostram-se dois exemplos, um incorreto, em que o ficheiro não tem cabeçalhos e outro correto, onde os cabeçalhos foram incluídos na primeira linha.
O exemplo incorreto mostra um ficheiro CSV com um cabeçalho que não é autoexplicativo, sendo, nesse caso, necessário fornecer explicações adicionais nos metadados.
Garantir que todas as linhas têm o mesmo número de colunas e sigam a estrutura correta de um ficheiro CSV.
De seguida são mostrados dois exemplos, um incorreto, onde falta o cabeçalho da última coluna e duas linhas não têm valores na última coluna, e outro correto, onde todas as linhas têm valores para todas as colunas.
Indicar as unidades de medida de uma forma facilmente processável, declarando-as nas colunas correspondente ou, caso a unidade varie entre linhas, usando uma coluna para especificar a unidade utilizada. Adicionalmente, a unidade de medida pode ser referenciada nos metadados correspondentes do stat:dcat.
São ilustrados dois exemplos, um incorreto, onde a unidade de medida está incluída na célula que contém o valor, e um correto, onde existe uma coluna dedicada à unidade de medida utilizada em cada linha.
No exemplo correto que se segue optou-se por especificar as unidades de medida utilizando a lista de vocabulário controlado disponibilizada pelo Serviço das Publicações da União Europeia.