Considera-se dados de investigação todos e quaisquer dados que sejam produto direto ou indireto do processo de investigação científica, e por isso necessários para a validação de resultados científicos.
Podem ser considerados dados de investigação:
- Dados em bruto: aqueles que são capturados através de instrumentos e sensores, como telescópios, smartphones e satélites.
- Visualizações, modelos e algoritmos: os investigadores também produzem recursos digitais tais como modelos e algoritmos para os auxiliar a analisar, visualizar e apresentar dados em bruto de forma significativa.
- Imagens, áudio e ficheiros de vídeo: imagens digitais também são consideradas como dados, assim como quaisquer ficheiros de vídeo ou áudio capturados no decorrer de uma investigação, tais como as entrevistas gravadas.
- Qualquer coisa! essencialmente, dados de investigação pode ser tudo aquilo que os investigadores produzam ou trabalhem durante o decurso da sua investigação.
Podemos distinguir os tipos de dados:
a) de acordo com o seu grau de processamento:
- Em bruto: dados de investigação obtidos diretamente do processo de investigação, instrumento ou metodologia científica, sem que tenham sofrido qualquer processamento ou transformação (p. ex.: entrevista áudio/vídeo sem edição, dados gerados por um instrumento de medição sem que tenham sofrido processamento).
- Processados: dados resultantes da interpretação, processamento ou transformação de dados em bruto (p. ex.: entrevista áudio/vídeo após edição, dados gerados por um instrumento de medição após processamento ou aplicação de modelos estatísticos).
b) de acordo com a proveniência (do ponto de vista do investigador):
- Primários: dados gerados pelo próprio, no decorrer da sua investigação;
- Secundários: dados disponíveis (abertos), reutilizados por outros que não os seus produtores. Estes dados, para serem usados, necessitam de ter documentação de contextualização associada.
c) de acordo com a sua dimensão:
- Big data: dados (datasets) de grande dimensão, muitas vezes provenientes de instrumentos específicos;
- Long tail data: datasets de pequenas dimensões. Dada a sua natureza heterogénea, constituem um maior desafio em termos de planeamento, gestão, preservação e reutilização, devido à sua natureza heterogénea e singular.
d) de acordo com o tipo de investigação desenvolvida:
- Dados de observação: capturados em tempo real, geralmente únicos e insubstituíveis (p. ex.: imagens cerebrais, dados de inquéritos);
- Dados experimentais: recolhidos a partir de equipamentos de laboratório, podendo ser reprodutíveis (p. ex.: cromatogramas, micro-ensaios);
- Dados de simulação: gerados a partir de modelos de teste, onde os modelos e metadados podem ser mais importantes do que os dados resultantes do modelo (p. ex.: modelos económicos e climáticos);
- Dados derivados ou compilados: resultam do processamento ou de combinação de dados em bruto, podendo ser reprodutíveis;
- Dados de referência ou canónicos (estáticos ou orgânicos): coleções de pequenos conjuntos de dados (revistos por pares), podendo ser publicados e curados (p. ex.: banco de dados de genes).