|
||||||||||||||||||||||||||
В данном практикуме я работала с седьмой хромосомой человека (сборка hg19). Ссылку на саму хромосому давать не буду (боюсь - очень большой объем), но вот одноконцевые чтения. Анализ качества чтений Контроль качества чтений был осуществлен при помощи программы FastQC, ее вызов на рисунке 1. Результат работы на рисунке 2. Рис. 1. Вызов FastQC Рис. 2. Выдача FastQC. Видно, что большинство ридов (особенно в начале) в зеленой области, то есть качество прочтения хорошее, но не для всех ридов Очистка чтений Очистка была проведена программой Trimmomatic: с конца каждого чтения были отрезаны нуклеотиды скачеством ниже 20, удалены риды короче 50. Команда представлена на рисунке 3. Рис. 3. Очистка чтений Было удалено 102 рида, осталось 3650 ридов (97,28% от исходного количества). После этого был снова сделан контроль качества чтений с помощью FastQC (на рисунке 4 команда, на рисунке 5 - результат). Рис. 4. Повторный вызов FastQC Рис. 5. Вторая выдача FastQC. Все риды качественно прочтены Картирование чтений С помощью программы BWA очищенные чтения были откартированы. То есть сначала была проиндексирована референсная последовательность - командой с рисунка 6. Рис. 6. Индексирование референсной последовательности Затем было построено выравнивание прочтений и референса в формате .sam - на рисунке 7. Рис. 7. Построение выравнивания прочтений и референса Анализ выравнивания Требовалось перевести полученное выравнивание в бинарный формат .bam, для этого использовался пакет samtools, как показано на рисунке 8. Рис. 8. Форматирование выравнивания Затем с помощью приведенной на рисунке 9 команды содержание переформатированного файла было отсортировано по координате в рефересе начала чтения, далее проиндексировано (рисунок 10). На рисунке 11 - выяснение того, сколько ридов в итоге откартировалось на геном. Рис. 9. Сортировка содержимого файла Рис. 10. Индексирование содержимого файла Рис. 11. Подсчет откартированных ридов Откартировалось 3648 ридов, что меньше исходного количества ридов после очистки. Я не знаю механизма работы использованных мной программ, поэтому не могу сказать ни почему так получилось, ни на каком этапе. Поиск SNP и инделей И вот наконец можно перейти к собственно поиску однонуклеотидных полиморфизмов (SNP) - отличий в один нуклеотид между одинаковыми местами геномов представителей одного вида или между гомологичными участками гомологичных хромосом. Был создан файл с полиморфизмами в формате .bcf, как показано на рисунке 12, а затем файл с отличиями между референсом и чтениями в формате .vcf, как на рисунке 13. Рис. 12. Создание файла с полиморфизмами Рис. 13. Создание файла со списком отличий В таблице 1 приведены примеры полиморфизмов из файла .vcf. Таблица 1. Однонуклеотидные полиморфизмы
Анализ SNP Из файла с отличиями были удалены все индели, c помощью предоставленного скрипта фомат был изменен на пригодный для дальнейшей работы (рисунок 14). Проведено аннотирование по различным базам данных (рисунки 15-19). Полученная информация собрана в итоговой таблице. Рис. 14. Переформатирование файла с отличиями Рис. 15. Аннотация по RefGene Рис. 16. Аннотация по snp138 Рис. 17. Аннотация по 1000 genomes Рис. 18. Аннотация по Gwas Рис. 19. Аннотация по Clinvar Выводы:
|
||||||||||||||||||||||||||
|