O universo dos dados
*Débora Morales
Muito se escuta falar de Big Data e Small Data, mas o que isso realmente significa ainda confunde muita gente. A definição é simples: trata-se de uma análise completa de dados. Décadas atrás, os dados não eram classificados como Small ou Big por fatores como custo, recursos e dificuldades de geração, processamento, análise e armazenamento.
Os dados eram produzidos de forma rigorosamente controlada, utilizando técnicas de amostragem que limitavam seu espaço, temporalidade e tamanho. No entanto, nos últimos anos, os avanços tecnológicos levaram à produção do que se denominou Big Data, que têm características muito diferentes dos pequenos conjuntos de dados.
Grande volume, alta velocidade, que se assemelha ao tempo real, variedade de tempo e espaço, e grande alcance, que capta toda a população dentro de um determinado domínio são algumas das especificações do Big Data. O desenvolvimento simultâneo de várias tecnologias, infraestruturas, técnicas e processos favoreceu esse novo passo.
Rapidamente, o Big Data incorporou softwares de todos os tipos de objetos, desde máquina a sistemas que se alteram de “mudos” para “inteligentes”. Incorporou, também, práticas e espaços sociais e empresariais, por meio de um conjunto diversificado de tecnologias da informação e da comunicação, em especial a internet fixa e móvel. O desenvolvimento da computação ubíqua e a capacidade de acesso a redes em muitos ambientes e em movimento incluiu a criação de novas plataformas de mídias sociais.
Em contraste, o Small Data pode ser limitado em volume e velocidade, mas tem um longo histórico de desenvolvimento em toda ciência, agências estatais, organizações não-governamentais e empresas, com metodologias e modos de análise estabelecidos em um registro de produzir respostas significativas. Estudos de Small Data podem ser mais adaptados para responder a perguntas específicas e explorar em detalhes as formas variadas em que as pessoas interagem.
Estudos de Small Data procuram a mina de ouro, trabalhando uma mineração estreita, enquanto estudos de Big Data procuram extrair pepitas por meio da mineração a céu aberto, recolhendo e peneirando enormes faixas de dados. Essas duas abordagens de mineração, estreita versus aberta, têm consequências em relação à qualidade dos dados, fidelidade e linhagem.
Devido ao tamanho limitado da amostra de Small Data, a qualidade, objetividade, consistência, veracidade e confiabilidade são de suma importância. Muito trabalho é dedicado a limitar a amostragem e o viés metodológico, bem como assegurar que os dados sejam tão rigorosos e robustos quanto possível, antes de serem analisados ou partilhados.
Em contrapartida, o Big Data não necessita dos mesmos padrões de qualidade, veracidade e linhagem, porque a natureza exaustiva do conjunto de dados elimina os vieses da amostragem e compensa mais do que quaisquer erros ou lacunas.
Dadas as preocupações e limitações de Small Data, estudos continuarão a ser um componente importante no cenário de pesquisas. Tais dados, no entanto, serão cada vez mais pressionados a serem ampliados dentro de infraestruturas de dados digitais, para que sejam preservados para gerações futuras, tornem-se acessíveis para reutilização e combinações com outros dados.
As práticas da vida cotidiana e os locais em que vivemos agora são aumentados, monitorados e regulados por densas aglomerações de infraestrutura e tecnologia de dados. Dentro desse sistema, grande parte da geração de dados é automatizada por meio de câmeras controladas algoritmicamente, sensores, scanners, dispositivos digitais como telefones inteligentes, ou são voluntários pelos usuários de mídias sociais ou iniciativas de crowdsourcing.
Coletivamente, esses sistemas produzem conjuntos de dados maciços, exaustivos, dinâmicos, indexados, inter-relacionados, flexíveis e escaláveis. Apesar de algumas limitações, o Big Data e o Small Data se esforçam para serem cada vez mais abrangentes e proporcionarem uma visão dinâmica e refinada em um novo território que ainda está sendo explorado.
*Débora Morales é estatística no Instituto das Cidades Inteligentes (ICI).
Débora Morales, estatística do Instituto das Cidades Inteligentes (ICI).
Créditos: divulgação