Учебный сайт Ивановой Софьи | ||||||
Главная | 1 семестр | 2 семестр | 3 семестр | Ссылки | Обо мне | Контакты |
Практикум 13. Задача: найти и описать полиморфизмы у пациента Дано: 1. Чтения экзома, картирующиеся на участок хромосомы человека - chr9_2.fastq Ход работы: Рис.1 Программы и команды, использовавшиеся в каждом шаге. Отчет по использованным командам в виде таблицы продублирован в прикрепленном файле 1. Анализ качества чтений с помощью программы FastQC. пользовалась программой, установленной на kodomo. Запрос: fastq chr9_2.fastq . Результат - zip-архив, в котором содержался помимо всего прочего html-файл с отчетом. 2. Очистка чтений с помощью программы Trimmomatic. Требовалось отрезать с конца каждого чтения нуклеотиды с качеством ниже 20 и оставить только чтения длиной не меньше 50 нуклеотидов. В чтении, с которым я работала, адаптеры уже были удалены. Что сделано: Рис.2 Команды для Trimmomatic Итоговый файл trim3.fastq я переименовала в 9_2_imp.fastq .В нем содержатся чтения с качеством оснований > 20 и длиной > 50. Для проверки результатов я посмотрела, как изменилась оценка качества чтений с помощью программы FastQC. Результаты: Рис.3 Изображение FastQC "Per base sequence quality" до и после чистки программой Trimmomatic Число чтений до чистки: 2206 Число чтений после чистки: 2141 Программа работала таким образом, что отрезались "некачественные" основания с концов, а затем удалялись те риды, которые в результате такого обрезания становились слишком короткими ( <50 п.н.). Судя по отчету FastQC и выдаче программы Trimmomatic, удалилось, во-первых, небольшое число очень плохих по всей длине ридов, во-вторых, те риды, у которых были слишком длинные "плохие" концы. В целом, качество чтения нуклеотидов улучшилось по всей длине. На заднем конце улучшение было наиболее значительным, что ожидаемо, поскольку качество чтения падает к концу рида в связи с особенностями работы секвенатора. Далее было проведено картирование чтений, анализ выравнивания, поиск SNP и инделей. Использованные команды приведены выше.
Поиск SNP и инделей Следуя руководству, я создала файл со списком отличий между референсом и чтениями в формате .vcf. Затем требовалось найти и описать в отчете три полиморфизма из .vcf файла. Легенда к основной части .vcf файла - таблице - приведена в шапке, оттуда я брала необходимую информацию.
Аннотация SNP Требовалось с помощью программы annovar проаннотировать только полученные snp (индели не нужно), пользуясь базами данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar. Последовательность действий: 1) Получить из .vcf файла другой файл, с которым умеет работать annovar, с помощью скрипта convert2annovar.pl. Скрипт лежит на kodomo: /nfs/srv/databases/annovar . Для дальнейшей работы я переместила его в свою рабочую директорию и поменяла права (chmod agu+xwr convert2annovar.pl). Аннотировать по базам данных с помощью команды annotate_variation.pl Примечание: поскольку просили аннотировать только SNP, но не индели, из всех таблиц с аннотациями по базам данных индели длиной больше 1 удалены. Результаты Результаты в форме таблиц, в том числе описание полиморфизмов из .vcf файла и сводная таблица по аннотациям по базам данных, приведены в прикрепленном xslx-файле (приведен выше). Отчет о полученных snp: 1) Сколько snp и сколько инделей получили: В .vcf файле полиморфизмов: 5 инделей, в т.ч. 2 однонуклеотидных; с ними 61 SNP, без них 59 По базам данных: 61 SNP 2) На какие категории делит snp база данных refseq в annovar? Сколько snp попало в каждую группу? Категории: exonic, splicing, ncRNA, UTR5, UTR3, intronic, upstream, downstream, intergenic Рис.4 Категории SNP в бд refseq В наших чтений к каждому классу принадлежат: intronic: 42 exonic: 17 UTR3: 2 downstream: 2 3) rs имееет 56 полиморфизмов, в том числе 54 SNP и 1 индель 4)SNP попали в 3 гена: TNFSF15 - tumor necrosis factor receptor superfamily member 25. Белок, который кодирует данных ген, принадлежит к суперсемейству TNF-рецепторов. Данный рецептор экспрессируется преимущественно в тканях, богатых лимфоцитами, и, возможно, участвует в регуляции лимфоцитарного гомеостаза. NDUFA8 - NADH:ubiquinone oxidoreductase subunit A8. Белок, который кодирует данный ген, является компонентом комплекса I 19 kDA subunit family, который в свою очередь является частью электрон-транспортной цепи митохондрий. ABO - ABO blood group (transferase A, alpha 1-3-N-acetylgalactosaminyltransferase; transferase B, alpha 1-3-galactosyltransferase). Этот ген кодирует белки, связанные с первой открытой системой определения группы крови - ABO. Группа крови у индивида определяется тем, какие аллели данного гена у него присутствуют. Группа 'O' получается в результате делеции гуанина-285 возле N-конца белка, из-за чего происходит сдвиг рамки считывания и трансляция, фактически, другого белка (неактивного). В результате у человека отсутствуют антигены A и B. У людей с A, B и AB-аллелями экспрессируются активные гликозидтрансферазы, превращающие предшествующий антиген H в антиген A или B. Также существуют другие, более редкие аллели этого гена. 5) Хорошее ли покрытие и качество у найденных полиморфизмов? Информация для ответа на этот вопрос приведена в таблице с аннотациями по RefGene (и по другим бд тоже, но в RefGene аннотаций больше всего, и они включают в себя все найденные в других бд полиморфизмы). Итак, 20 из 61 SNP имеют покрытие > 10, 29 - больше 5, то есть довольно хорошее. Вторая половина имеет покрытие <= 4, причем 19 из них имеют покрытие 1 (соответствующее качество чтений для них тоже низко, часто менее 10, поэтому я не уверена, что это действительно полиморфизмы, а не ошибки секвенирования). SNP с хорошим покрытием также имеют высокое качество чтений. 6) К каким нуклеотидным и аминокислотным заменам привели snp? Необходимые данные приведены в файле exonic_variant_function, полученном при аннотации по refseq (скопирован в прикрепленную таблицу). В нем содержится информация о заменах в экзонах генов и их функциональности. Для моих чтений данные известны только для одного SNP (rs3810936), при этом произошедная замена синонимична (валин заменился на валин). 7) Частота найденных snp Данные о частоте аллели я брала из аннотаций SNP из базы данных 1000genomes. Информация имеется для большей части SNP. Среди аннотированных полиморфизмов большая часть весьма распространенные, с частотами от 0.7 до 0.3. Есть только один редкий SNP - rs78979172 в гене TNFSF15, с частотой встречаемости 0,0341454. Функция его неизвестна. 8) Что можно сказать о клинической аннотации snp? Как я поняла, клинические аннотации приводят базы данных GWAS (аннотировались 9) и Clinvar (2). SNP в ABO связаны с характеристиками крови и кровотока, что неудивительно. Например, присутствуют полиморфизмы, которые связаны со временем свертывания крови, концентрациями факторов свертываемости и риском венозной тромбоэмболии. SNP, найденные в гене в TNFSF15, вызывают риск заболеваний кишечника: болезни Крона и язвенного колита. Единственный аннотированный полиморфизм в гене NDUFA8 связан с риском ожирения, что понятно, поскольку продукт гена является компонетом дыхательной цепи митохондрий и, таким образом, связан с энергетическим балансом клетки.
|