Qual codificação CSV devo usar?

Existem tantos formatos de arquivo que é difícil controlá-los. Seja escrevendo um artigo em um Chromebook ou salvando uma foto em seu telefone Android, cada arquivo possui vários formatos possíveis. Um formato que surge frequentemente ao trabalhar com planilhas é um arquivo CSV, que permite armazenar dados como texto e movê-los entre aplicativos. Existem vários tipos de arquivos CSV, então qual é a diferença entre cada um deles?


O que é um arquivo CSV?

Um arquivo CSV é um arquivo de texto que contém apenas texto. Não contém fórmulas ou dados específicos do programa. CSV significa arquivo de valores separados por vírgula, que se refere a como o texto no arquivo é armazenado de forma a separar os dados com um delimitador ou separador de campo.

Um arquivo CSV é uma ótima maneira de armazenar e transferir grandes quantidades de dados, pois o tipo de arquivo é compatível com muitos programas. Todos os arquivos CSV possuem características diferentes que determinam como eles são formatados.

Captura de tela mostrando uma planilha do Planilhas Google em branco em um navegador da web

Delimitadores

Um delimitador, ou separador de campo, é um caractere ou sequência de caracteres que separa campos em um arquivo de texto. Existem muitos delimitadores possíveis, mas vírgulas, tabulações, espaços e ponto e vírgula são os mais comuns. Ao usar um delimitador, qualquer campo pode ser colocado entre aspas (colocado entre aspas), mas alguns campos devem ser colocados entre aspas. Existem várias regras em torno disso, mas casos comuns são campos que incluem aspas ou o caractere que os delimita. Um CSV geralmente mostra seu delimitador no tipo de arquivo. Por exemplo, um formato de arquivo CSV com delimitadores de vírgula será chamado CSV (delimitado por vírgula).

UTF-8 x UTF-16 x UTF-32

Para entender esses diferenciais do CSV, primeiro precisamos discutir como os computadores armazenam dados, o que é feito por meio de um sistema binário. Binário significa que os dados são armazenados em sequências de 1s ou 0s, onde um único 1 ou 0 é chamado de bit. A próxima menor maneira de armazenar dados é um byte, que é construído a partir de oito bits. Por exemplo, “1” é um bit e “01001101” é um byte.

Os bytes são reunidos para formar todos os itens digitais com os quais você já interagiu, desde uma imagem no seu smartphone até o programa Excel no seu computador. Freqüentemente, você verá tamanhos de arquivo em quilobytes (mil bytes), megabytes (um milhão de bytes) e gigabytes (um bilhão de bytes).

Código binário colorido sobreposto ao código binário preto

Fonte: Pixabay, Gerd Altmann

Para usar o binário de forma prática, os caracteres e símbolos do idioma regular devem ser traduzidos para binário. Uma maneira de fazer isso é ASCII (American Standard Code for Information Interchange), que converte a linguagem humana em binária por meio de um código exclusivo e uma sequência de bytes.

Este sistema funciona, mas tem limitações porque existem apenas 256 combinações únicas de 1s e 0s. Quando foi criado, tudo bem, pois só precisava abrigar letras maiúsculas, minúsculas e pontuação. O sistema rapidamente ficou sem espaço à medida que a tecnologia evoluía e surgia a necessidade de adicionar caracteres de outros idiomas.

A solução é outro sistema chamado Unicode, que permite um código único, chamado code point, para todos os caracteres em todos os idiomas e emojis. Um ponto de código é composto por um U+ seguido por um conjunto exclusivo de letras e números. Por exemplo, A é representado em Unicode por U+0041. Um ponto de código não é binário, então precisamos de uma maneira de converter um ponto de código em binário. É aqui que entra o UTF.

UTF significa Unicode Transformation Format e traduz qualquer ponto de código em uma sequência binária e vice-versa. O número no final do sistema de codificação UTF representa o número mínimo de bits nos quais um caracter pode ser armazenado. Por exemplo, UTF-8 pode armazenar um caractere em um, dois, três ou quatro bytes, pois 8 é equivalente ao número de bits em um byte. UTF-16 só pode armazenar caracteres em dois ou quatro bytes. UTF-32 só pode armazenar caracteres em quatro bytes.

Um smartphone mostrando uma grade de emojis cercados por decorações natalinas

UTF-8 armazena os caracteres mais comuns em um byte e os caracteres menos comuns em um número maior de bytes. Isso significa que a maioria dos caracteres ingleses são armazenados em um único byte, enquanto os caracteres usados ​​apenas em um único idioma geralmente são armazenados em quatro bytes. Apenas UTF-8 é compatível com ASCII, mas todos os sistemas de codificação UTF são compatíveis com Unicode.

UTF-8 é o sistema de codificação ideal para arquivos que usam muitos caracteres do inglês porque economiza espaço e processa mais rapidamente. Se um arquivo usar muitos caracteres incomuns, o UTF-16 provavelmente será ideal porque é um bom equilíbrio entre UTF-8 e UTF-32 e produz um tamanho de arquivo menor.

Macintosh e MS-DOS

Formatos CSV especiais são compatíveis com sistemas operacionais Mac ou MS-DOS. A forma como um arquivo CSV precisa ser formatado é um pouco diferente, pois esses sistemas operacionais são diferentes do Windows. Para arquivos CSV do Macintosh, o principal diferencial é a codificação de caracteres, a forma como uma linha ou linha termina. Macintosh CSV usa retorno de carro (CR). MS-DOS e outros formatos CSV usam retorno de carro/alimentação de linha (CR/LF). CR usa um único caractere e CR/LF usa vários caracteres para indicar o fim de uma linha.

MacBook Pro de 14 polegadas em uma mesa de madeira

Fonte: CNN

Excelente em planilhas

CSV parece um formato de arquivo simples, mas possui muitas nuances. Algumas características diferenciam os arquivos CSV e os tornam ideais para diferentes aplicativos e sistemas operacionais. Para funcionar bem com arquivos CSV, experimente estas dicas e truques do Planilhas Google.