Ісіктердің мультиомиксті мәліметтерін Тәуелсіз Компоненттер Әдісімен деконволюциялау және зерттеу
Full Name of the work head: Каиров Улыкбек Еруланович
Исполнители проекта:
: National Laboratory Astana
Inventory number: 0218РК00597
Registration number: 0118РК01032
Keywords:
"Целью исследования проекта является изучение и деконволюция «мульти-омиксных» данных с высокопроизводительных геномных платформ с применением Метода Независимых Компонент для детального поиска и изучения скрытых биологических сигналов и сигнальных путей в онкозаболеваниях.
Материалы и методы: Материалом исследования являлись необработанные cиквенсовые риды в формате *.bcl с платформы секвенирования Illumina HiSeq2000 рака пищевода Центра Наук о Жизни, а также необработанные данные высокоплотных микрочипов формате *.CEL c транскриптомными профилями из баз Gene Expression Omnibus (GEO) и наборы данных с транскриптомными профилями из базы TCGA - The Cancer Genome Atlas. Необработанные данные высокоплотных микрочипов в формате «.CEL» микрочипов из каждого набора данных нормализовались с применением пакетов функций DBI, RSQLite, AnnotationDbi, методом GCRMA. Процедуры нормализации микрочиповых данных проводились с помощью программной среды R3.2.2 и применением пакетов функций Biobase, BiocGenerics, affyio, affy. Для каждого набора транскриптомов проводились процедуры фильтрации и центрирования с помощью среды разработки Matlab. Независимые компоненты рассчитывались с помощью пакета функций Icasso и алгоритма FastICA с применением приложения BIODICA. Коэффициенты корреляции Пирсона и значимость p-value между независимыми компонентами рассчитывались с применением Matlab. Корреляционные графы визуализировались помощью Cytoscape. В качестве базы белок-белковых взаимодействий адаптирована ""Human Protein Reference Database"". Все этапы биоинформатического анализа, процессинга и вычислительные расчеты выполнялись с использованием биоинформатических кластеров Dell (32 Cores AMD Opteron 6212 2.6 GHz, 128 Gb RAM, 20 Tb RAID, Red Hat Enterprise Linux Server) и Dell T430 (2х Intel Xeon 2698 3.6 Ghz (16 Cores), 32 Gb RAM, 2 Tb RAID, Windows Server) Лаборатории биоинформатики и системной биологии Центра Наук о Жизни, NLA, Назарбаев Университета.
Результаты: Первоначальная выборка данных полных транскриптомов рака пищевода казахстанских пациентов (RNA-seq набор), полученная на платформе секвенирования Illumina HiSeq2000 была пополнена транскриптомными данными из баз GEO и ТCGA. Проведены процедуры выравнивания и нормализации ридов с помощью биоинформатических методов. Необработанные сигналы в формате *bcl от казахстанских пациентов с опухолью пищевода, полученных на платформе секвенирования нового поколения Illumina HiSeq2000 были картированы и выравнены с помощью биоинформатических методов STAR 2.5.2 и StringTie. Необработанные данные раковых наборов из базы GEO были нормализованы методом GCRMA. Ко всем подготовленным транскриптомным профилям текущего года был применен Метод Независимых Компонент и рассчитаны независимые компоненты."