Recomendações para ficheiros CSV

De seguida são descritas todas as recomendações a ter em conta ao formatar ficheiros CSV. Para recomendações sobre outros formatos, como XML, RDF ou JSON consultar o guia Data Quality Guidelines.

Usar o ponto e vírgula como delimitador

Usar o ponto e vírgula para separar cada valor em vez da vírgula, evitando que esta seja interpretada como um delimitador, uma vez que os pontos e vírgula são utilizados com menor frequência em valores. O delimitador deve ficar sempre entre dois valores e não podem existir espaços ou tabulações antes ou depois.

De seguida é ilustrado um exemplo incorreto, onde duas linhas têm uma tabulação a seguir ao delimitador e onde todas as células têm o último valor seguido por um ponto e vírgula, e outro exemplo correto, onde não existe qualquer espaço ou tabulação antes ou depois do delimitador e o último valor de cada linha não é seguido por um delimitador.

Disponibilizar uma tabela por ficheiro

Cada ficheiro CSV só pode conter uma tabela. Se a tabela a publicar for composta por várias folhas, deve ser criado um ficheiro CSV para cada uma, uma vez que uma organização diferente quebraria a estrutura da tabela e iria dificultar a sua interpretação por meios automáticos.

De seguida é ilustrado um exemplo incorreto onde foram incluídas duas tabelas distintas no mesmo ficheiro, e outro correto, onde foram disponibilizados dois ficheiros, cada um contendo uma tabela com uma estrutura distinta.

Evitar inserir espaços em branco e informação adicional no ficheiro

Garantir que o ficheiro contém apenas dados que pertencem à tabela em si, como os cabeçalhos das colunas e os respetivos valores, uma vez que a inclusão de informação adicional dificulta o processamento porque os espaços em branco e títulos das tabelas também são interpretados automaticamente.

De seguida é ilustrado um exemplo incorreto de um ficheiro que contém o título de tabela e duas linhas vazias (vermelho), quando visualizado no Microsoft Excel.

Na figura que se segue, é ilustrado como o mesmo ficheiro foi lido por um editor de texto, onde a linha do título da tabela e as linhas vazias (vermelho) foram interpretadas.

O exemplo incorreto que se segue ilustra um ficheiro com informações e formatações adicionais, identificadas com caixas de texto, que irão dificultar o processamento automático dos dados.

No exemplo correto que se segue é ilustrada uma versão do ficheiro com os mesmos dados onde todas as informações adicionais foram removidas e o título da tabela foi incluído no nome do ficheiro.

Inserir cabeçalhos nas colunas

Incluir sempre cabeçalhos das colunas na primeira linha do ficheiro. Os cabeçalhos devem ser, preferencialmente, autoexplicativos, mas caso não sejam, a sua explicação deve ser incluída nos metadados.

De seguida mostram-se dois exemplos, um incorreto, em que o ficheiro não tem cabeçalhos e outro correto, onde os cabeçalhos foram incluídos na primeira linha.

O exemplo incorreto mostra um ficheiro CSV com um cabeçalho que não é autoexplicativo, sendo, nesse caso, necessário fornecer explicações adicionais nos metadados.

Todas as linhas devem ter o mesmo número de colunas

Garantir que todas as linhas têm o mesmo número de colunas e sigam a estrutura correta de um ficheiro CSV.

De seguida são mostrados dois exemplos, um incorreto, onde falta o cabeçalho da última coluna e duas linhas não têm valores na última coluna, e outro correto, onde todas as linhas têm valores para todas as colunas.

Indicar unidades de medida

Indicar as unidades de medida de uma forma facilmente processável, declarando-as nas colunas correspondente ou, caso a unidade varie entre linhas, usando uma coluna para especificar a unidade utilizada. Adicionalmente, a unidade de medida pode ser referenciada nos metadados correspondentes do stat:dcat.

São ilustrados dois exemplos, um incorreto, onde a unidade de medida está incluída na célula que contém o valor, e um correto, onde existe uma coluna dedicada à unidade de medida utilizada em cada linha.

No exemplo correto que se segue optou-se por especificar as unidades de medida utilizando a lista de vocabulário controlado disponibilizada pelo Serviço das Publicações da União Europeia.

Last updated