Ik heb een aantal vcf-bestanden (v4.1) met structurele variaties van een aantal niet-modelorganismen (d.w.z. er zijn geen bekende varianten). Ik ontdekte dat er nogal wat tools zijn om vcf-bestanden te manipuleren, zoals VCFtools, R-pakket vcfR of python-bibliotheek PyVCF. Geen van hen lijkt echter een korte samenvatting te geven, zoiets als (liefst ook gecategoriseerd op grootte):
type countDEL xINS yINV z ....
Is er een tool of een functie die ik over het hoofd heb gezien die samenvattingen van deze stijl oplevert?
Ik weet dat het vcf-bestand slechts een gewoon tekstbestand is en of ik REF
en ALT
-kolommen Ik zou een script moeten kunnen schrijven dat de klus zal klaren, maar ik hoopte dat ik kon vermijden om mijn eigen parser te schrijven.
--- bewerken ---
Tot dusver lijkt het erop dat alleen tool die tot doel heeft samenvattingen te maken (@gringer antwoord) niet werkt op vcf v4.1. Andere tools zouden slechts een gedeeltelijke oplossing bieden door een bepaald varianttype te filteren. Daarom accepteer ik mijn eigen parser perl / R-oplossingen, totdat er een werkende tool zal zijn voor statistieken van vcf met structurele varianten .