O estado, limitações e comparações de grandes lojas de variantes

agapow

2017-05-22 21:14:17 UTC

view on stackexchange narkive permalink

Contexto: estamos cada vez mais precisando de alguma forma de armazenar muitos dados variantes associados a muitos assuntos: pense em ensaios clínicos e pacientes em hospitais, procurando genes causadores de doenças ou relevantes. Começaríamos por mil assuntos, fala-se de milhões no horizonte. Com várias iniciativas de medicina genômica, essa é provavelmente uma necessidade mais ampla.

O problema: embora haja muitas plataformas por aí, é um campo em rápida evolução. É difícil ter uma ideia de como (e se) eles funcionam e como se alinham entre si:

O que é escalonável e pode lidar com muitos dados? Que tipo de limites?
O que é robusto e não uma pilha oscilante de componentes hackeados juntos?
O que tem uma grande comunidade por trás disso e é realmente usado amplamente?
O que facilita o acesso e a pesquisa em outro serviço? (Linha de comando, REST ou APIs de software)
Que tipo de variantes eles lidam?
Que tipo de parâmetros podem ser usados na pesquisa?

Soluções que vi até agora:

BigQ: usado com i2b2, mas seu uso mais amplo não é claro
OpenCGA: parece o mais desenvolvido, mas ouvi reclamações sobre o tamanho dos dados que ele distribui
Usar o BigQuery em vez de um banco de dados do Google Genomics: não parece ser uma solução geral
Gemini: recomendado, mas é realmente escalável e acessível a partir de outros serviços?
SciDb: um banco de dados comercial geral
Quince
LOVD
Adam
Qualquer plataforma DIVAS & RVD executado: que pode não estar disponível gratuitamente
Várias soluções de genoma gráfico / gráfico: Nós (e a maioria das outras pessoas) provavelmente não está lidando com dados do genoma gráfico no momento, mas esta é uma solução possível?
Faça o seu próprio: recomendado frequentemente, mas estou cético que seja uma solução plausível para um grande conjunto de dados.

Alguém com experiência fez uma avaliação ou um guia de alto nível para este espaço de plataforma?

Meus dois centavos: use o MongoDB envolvido em uma estrutura REST simples. Permite modelos e consultas flexíveis e deve escalar para bilhões de registros em um único nó. Estou trabalhando em um projeto FLOSS para isso no momento, mas ainda não está pronto para produção.

@woemler Como é comparado a outras abordagens? Alguém que conheço experimentou o MongoDB ~ 5 anos atrás em genótipos 1000g. Ele disse que o MongoDB era mais de 10 vezes mais lento que o bcf2 em consultas paralelas, embora ocupasse um espaço de disco / memória muito maior. Dito isso, ele era novo no MongoDB na época e pode não estar fazendo isso da maneira ideal.

@user172818: As versões mais recentes do MongoDB (3.2+) são significativamente mais rápidas do que as versões de vários anos atrás. Eu o comparei com outros RDBMSs gratuitos e ele normalmente funciona tão bem ou melhor, especialmente para representações de dados complexas, como chamadas de variantes

O armazenamento dos dados é mais importante aqui ou o processamento de estatísticas (usando Python, R, etc.) sobre os dados é mais importante?

@macgyver: boa observação. Os dados - supostamente as pessoas vão querer minerar e consultar os dados, em vez de olhar estatísticas e análises resumidas.