Contexto: estamos cada vez mais precisando de alguma forma de armazenar muitos dados variantes associados a muitos assuntos: pense em ensaios clínicos e pacientes em hospitais, procurando genes causadores de doenças ou relevantes. Começaríamos por mil assuntos, fala-se de milhões no horizonte. Com várias iniciativas de medicina genômica, essa é provavelmente uma necessidade mais ampla.
O problema: embora haja muitas plataformas por aí, é um campo em rápida evolução. É difícil ter uma ideia de como (e se) eles funcionam e como se alinham entre si:
- O que é escalonável e pode lidar com muitos dados? Que tipo de limites?
- O que é robusto e não uma pilha oscilante de componentes hackeados juntos?
- O que tem uma grande comunidade por trás disso e é realmente usado amplamente?
- O que facilita o acesso e a pesquisa em outro serviço? (Linha de comando, REST ou APIs de software)
- Que tipo de variantes eles lidam?
- Que tipo de parâmetros podem ser usados na pesquisa?
Soluções que vi até agora:
- BigQ: usado com i2b2, mas seu uso mais amplo não é claro
- OpenCGA: parece o mais desenvolvido, mas ouvi reclamações sobre o tamanho dos dados que ele distribui
- Usar o BigQuery em vez de um banco de dados do Google Genomics: não parece ser uma solução geral
- Gemini: recomendado, mas é realmente escalável e acessível a partir de outros serviços?
- SciDb: um banco de dados comercial geral
- Quince
- LOVD
- Adam
- Qualquer plataforma DIVAS & RVD executado: que pode não estar disponível gratuitamente
- Várias soluções de genoma gráfico / gráfico: Nós (e a maioria das outras pessoas) provavelmente não está lidando com dados do genoma gráfico no momento, mas esta é uma solução possível?
- Faça o seu próprio: recomendado frequentemente, mas estou cético que seja uma solução plausível para um grande conjunto de dados.
Alguém com experiência fez uma avaliação ou um guia de alto nível para este espaço de plataforma?