Recomendações para ficheiros CSV

De seguida são descritas todas as recomendações a ter em conta ao formatar ficheiros CSV. Para recomendações sobre outros formatos, como XML, RDF ou JSON consultar o guia Data Quality Guidelines.

Usar o ponto e vírgula como delimitador

Usar o ponto e vírgula para separar cada valor em vez da vírgula, evitando que esta seja interpretada como um delimitador, uma vez que os pontos e vírgula são utilizados com menor frequência em valores. O delimitador deve ficar sempre entre dois valores e não podem existir espaços ou tabulações antes ou depois.

De seguida é ilustrado um exemplo incorreto, onde duas linhas têm uma tabulação a seguir ao delimitador e onde todas as células têm o último valor seguido por um ponto e vírgula, e outro exemplo correto, onde não existe qualquer espaço ou tabulação antes ou depois do delimitador e o último valor de cada linha não é seguido por um delimitador.

Exemplo incorreto, à esquerda, e correto, à direita, da utilização do ponto e vírgula como delimitador

Disponibilizar uma tabela por ficheiro

Cada ficheiro CSV só pode conter uma tabela. Se a tabela a publicar for composta por várias folhas, deve ser criado um ficheiro CSV para cada uma, uma vez que uma organização diferente quebraria a estrutura da tabela e iria dificultar a sua interpretação por meios automáticos.

De seguida é ilustrado um exemplo incorreto onde foram incluídas duas tabelas distintas no mesmo ficheiro, e outro correto, onde foram disponibilizados dois ficheiros, cada um contendo uma tabela com uma estrutura distinta.

Exemplo incorreto, à esquerda, e correto, à direita, de disponibilização de apenas uma tabela por ficheiro

Evitar inserir espaços em branco e informação adicional no ficheiro

Garantir que o ficheiro contém apenas dados que pertencem à tabela em si, como os cabeçalhos das colunas e os respetivos valores, uma vez que a inclusão de informação adicional dificulta o processamento porque os espaços em branco e títulos das tabelas também são interpretados automaticamente.

De seguida é ilustrado um exemplo incorreto de um ficheiro que contém o título de tabela e duas linhas vazias (vermelho), quando visualizado no Microsoft Excel.

Exemplo incorreto, onde foram inseridas células em branco e informação adicional, quando visualizado no Microsoft Excel

Na figura que se segue, é ilustrado como o mesmo ficheiro foi lido por um editor de texto, onde a linha do título da tabela e as linhas vazias (vermelho) foram interpretadas.

Exemplo incorreto, onde foram inseridas células em branco e informação adicional, quando interpretado por um editor de texto

O exemplo incorreto que se segue ilustra um ficheiro com informações e formatações adicionais, identificadas com caixas de texto, que irão dificultar o processamento automático dos dados.

Exemplo incorreto de um ficheiro com informações e formatações adicionais, identificadas com caixas de texto

No exemplo correto que se segue é ilustrada uma versão do ficheiro com os mesmos dados onde todas as informações adicionais foram removidas e o título da tabela foi incluído no nome do ficheiro.

Exemplo correto de um ficheiro sem informações ou formatações adicionais
Exemplo correto de um ficheiro onde o título da tabela foi incluído no nome do ficheiro e retirado da tabela

Inserir cabeçalhos nas colunas

Incluir sempre cabeçalhos das colunas na primeira linha do ficheiro. Os cabeçalhos devem ser, preferencialmente, autoexplicativos, mas caso não sejam, a sua explicação deve ser incluída nos metadados.

De seguida mostram-se dois exemplos, um incorreto, em que o ficheiro não tem cabeçalhos e outro correto, onde os cabeçalhos foram incluídos na primeira linha.

Exemplo incorreto, à esquerda, e correto, à direita, de inserção de cabeçalhos nas colunas

O exemplo incorreto mostra um ficheiro CSV com um cabeçalho que não é autoexplicativo, sendo, nesse caso, necessário fornecer explicações adicionais nos metadados.

Exemplo incorreto onde a linha do cabeçalho não é autoexplicativa

Todas as linhas devem ter o mesmo número de colunas

Garantir que todas as linhas têm o mesmo número de colunas e sigam a estrutura correta de um ficheiro CSV.

De seguida são mostrados dois exemplos, um incorreto, onde falta o cabeçalho da última coluna e duas linhas não têm valores na última coluna, e outro correto, onde todas as linhas têm valores para todas as colunas.

Exemplo incorreto, à esquerda, e correto, à direita, do número de colunas em cada linha

Indicar unidades de medida

Indicar as unidades de medida de uma forma facilmente processável, declarando-as nas colunas correspondente ou, caso a unidade varie entre linhas, usando uma coluna para especificar a unidade utilizada. Adicionalmente, a unidade de medida pode ser referenciada nos metadados correspondentes do stat:dcat.

São ilustrados dois exemplos, um incorreto, onde a unidade de medida está incluída na célula que contém o valor, e um correto, onde existe uma coluna dedicada à unidade de medida utilizada em cada linha.

Exemplo incorreto, à esquerda, e correto, à direita, da indicação de unidades de medida

No exemplo correto que se segue optou-se por especificar as unidades de medida utilizando a lista de vocabulário controlado disponibilizada pelo Serviço das Publicações da União Europeia.

Exemplo correto da indicação de unidades de medida, recorrendo à lista de vocabulário controlado

Last updated