Толық геном және экзом мәліметтер негізінде қазақ популяциясы үшін спецификалық болатын өзіндік геномдық варианттарды зерттеу мен анықтау
Full Name of the work head: Каиров Улыкбек Еруланович
Исполнители проекта:
: National Laboratory Astana
Inventory number: 0218РК01029
Registration number: 0118РК01045
Keywords:
"Идентификация казахских специфических геномных вариантов путем детального анализа данных полных геномов и полных экзомов казахских индивидуумов и сравнения с крупномасштабными популяционными наборами данных полных геномов.
Материалы и методы: В качестве исходной геномной выборки данных для анализа будут использоваться 14 полных геномов и 120 полных экзомов казахских индивиидумов, полученных на платформе секвенирования Illumina HiSeq2000 (Центр Наук о Жизни, NLA, Назарбаев Университет). Сиквенсовые прочтения конвертировались с помощью инструмента bcl2fastq. Затем сиквенсовые последовательности картировались и выравнивались на геном UCSC hg19. Выравнивание проводилось с помощью BWA-mem, а идентификация вариантов с помощью SAMtools и GATK. Сортировка и маркировка дубликатов проведена с помощью PicardTools.
Результаты: Первоначальная выборка данных полных геномов и полных экзомов индивидуумов казахской популяции, была пополнена данными крупных полногеномных популяционных наборов: 1) SGDP и 2) PRJEB26349. Для проведения дальнейшего биоинформатического анализа данных популяционных наборов SGDP, PRJEB26349 и HGDP были извлечены и подготовлены данные в форматах fastq, bam и vcf. SGDP включает в себя 278 полных геномов индивидуумов из 142 популяций мира, тогда как PRJEB26349 содержит 74 древних генома с территории Внутренней Азии, а также 41 геном современных представителей данного региона. Набор HGDP (Human Genome Diversity Project) включает в себя более 900 образцов из 52 популяций мира. Каждый образец был генотипирован на платформе IIlumina с числом полиморфизмов более 600 000. Для проведения дальнейшего биоинформатического анализа данных популяционного набора HGDP, матрица данных была форматирована и подготовлена в форматах csv и txt с привязкой популяционного кода. Отработан и подготовлен биоинформатический протокол анализа полных геномов на высокопроизводительной биоинформатической вычислительной системе «Q-Symphony» Лаборатории Биоинформатики и Системной Биологии (Центр Наук о Жизни, NLA, Назарбаев Университет). Проведена оценка и контроль качества сиквенсовых последовательностей полных геномов казахских индивидуумов. Проведены процедуры выравнивания и картирования сиквенсовых последовательностей геномов казахских индивидуумов с помощью биоинформатических методов."