De seguida são descritas todas as recomendações a ter em conta ao formatar ficheiros CSV. Para recomendações sobre outros formatos, como XML, RDF ou JSON consultar o guia Data Quality Guidelines.
Usar o ponto e vírgula como delimitador
Usar o ponto e vírgula para separar cada valor em vez da vírgula, evitando que esta seja interpretada como um delimitador, uma vez que os pontos e vírgula são utilizados com menor frequência em valores. O delimitador deve ficar sempre entre dois valores e não podem existir espaços ou tabulações antes ou depois.
De seguida é ilustrado um exemplo incorreto, onde duas linhas têm uma tabulação a seguir ao delimitador e onde todas as células têm o último valor seguido por um ponto e vírgula, e outro exemplo correto, onde não existe qualquer espaço ou tabulação antes ou depois do delimitador e o último valor de cada linha não é seguido por um delimitador.
Exemplo incorreto, à esquerda, e correto, à direita, da utilização do ponto e vírgula como delimitador
Disponibilizar uma tabela por ficheiro
Cada ficheiro CSV só pode conter uma tabela. Se a tabela a publicar for composta por várias folhas, deve ser criado um ficheiro CSV para cada uma, uma vez que uma organização diferente quebraria a estrutura da tabela e iria dificultar a sua interpretação por meios automáticos.
De seguida é ilustrado um exemplo incorreto onde foram incluídas duas tabelas distintas no mesmo ficheiro, e outro correto, onde foram disponibilizados dois ficheiros, cada um contendo uma tabela com uma estrutura distinta.
Exemplo incorreto, à esquerda, e correto, à direita, de disponibilização de apenas uma tabela por ficheiro
Evitar inserir espaços em branco e informação adicional no ficheiro
Garantir que o ficheiro contém apenas dados que pertencem à tabela em si, como os cabeçalhos das colunas e os respetivos valores, uma vez que a inclusão de informação adicional dificulta o processamento porque os espaços em branco e títulos das tabelas também são interpretados automaticamente.
De seguida é ilustrado um exemplo incorreto de um ficheiro que contém o título de tabela e duas linhas vazias (vermelho), quando visualizado no Microsoft Excel.
Exemplo incorreto, onde foram inseridas células em branco e informação adicional, quando visualizado no Microsoft Excel
Na figura que se segue, é ilustrado como o mesmo ficheiro foi lido por um editor de texto, onde a linha do título da tabela e as linhas vazias (vermelho) foram interpretadas.
Exemplo incorreto, onde foram inseridas células em branco e informação adicional, quando interpretado por um editor de texto
O exemplo incorreto que se segue ilustra um ficheiro com informações e formatações adicionais, identificadas com caixas de texto, que irão dificultar o processamento automático dos dados.
Exemplo incorreto de um ficheiro com informações e formatações adicionais, identificadas com caixas de texto
No exemplo correto que se segue é ilustrada uma versão do ficheiro com os mesmos dados onde todas as informações adicionais foram removidas e o título da tabela foi incluído no nome do ficheiro.
Exemplo correto de um ficheiro sem informações ou formatações adicionais
Exemplo correto de um ficheiro onde o título da tabela foi incluído no nome do ficheiro e retirado da tabela
Inserir cabeçalhos nas colunas
Incluir sempre cabeçalhos das colunas na primeira linha do ficheiro. Os cabeçalhos devem ser, preferencialmente, autoexplicativos, mas caso não sejam, a sua explicação deve ser incluída nos metadados.
De seguida mostram-se dois exemplos, um incorreto, em que o ficheiro não tem cabeçalhos e outro correto, onde os cabeçalhos foram incluídos na primeira linha.
Exemplo incorreto, à esquerda, e correto, à direita, de inserção de cabeçalhos nas colunas
O exemplo incorreto mostra um ficheiro CSV com um cabeçalho que não é autoexplicativo, sendo, nesse caso, necessário fornecer explicações adicionais nos metadados.
Exemplo incorreto onde a linha do cabeçalho não é autoexplicativa
Todas as linhas devem ter o mesmo número de colunas
Garantir que todas as linhas têm o mesmo número de colunas e sigam a estrutura correta de um ficheiro CSV.
De seguida são mostrados dois exemplos, um incorreto, onde falta o cabeçalho da última coluna e duas linhas não têm valores na última coluna, e outro correto, onde todas as linhas têm valores para todas as colunas.
Exemplo incorreto, à esquerda, e correto, à direita, do número de colunas em cada linha
Indicar unidades de medida
Indicar as unidades de medida de uma forma facilmente processável, declarando-as nas colunas correspondente ou, caso a unidade varie entre linhas, usando uma coluna para especificar a unidade utilizada. Adicionalmente, a unidade de medida pode ser referenciada nos metadados correspondentes do stat:dcat.
São ilustrados dois exemplos, um incorreto, onde a unidade de medida está incluída na célula que contém o valor, e um correto, onde existe uma coluna dedicada à unidade de medida utilizada em cada linha.
Exemplo incorreto, à esquerda, e correto, à direita, da indicação de unidades de medida
No exemplo correto que se segue optou-se por especificar as unidades de medida utilizando a lista de vocabulário controlado disponibilizada pelo Serviço das Publicações da União Europeia.
Exemplo correto da indicação de unidades de medida, recorrendo à lista de vocabulário controlado