Главная | Первый семестр | Второй семестр | Третий семестр | Ссылки | Обо мне | Заметки | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Банки нуклеотидных последовательностейЗадание 1. Качество сборки генома эукариотического организма. Все любят котиков. А я... нет. Поэтому для выполнения данного задания, в котором нужно охарактеризовать качество сборки генома эукариотического организма, я выбрала того представлителя эукариот, которого больше всего люблю... употреблять в пищу: это курица (Рис. 1). На странице базы данных Genomes сайта NCBI я прошла по ссылке Browse by organism, после чего получила таблицу со списком организмов. С помощью фильтров я оставила для рассмотрения эукариот, затем животных и наконец птиц, среди которых и был организм Gallus gallus. Курица (а также еще 3 птичьих организма из 65 представленных в таблице) имеет наиболее полную сборку генома среди имеющихся на данный момент у птиц (закрашены 3/4 кружочка в колонке Levels, что означает сборку на хромосомном уровне). Такое внимание к куриному геному не случайно: помимо того, что курица является важнейшим сельскохозяйственным животным, она еще и представляет собой одну из первичных моделей для эмбриологии и биологии развития (Рис. 2), а также изучения вирусов и рака (информация почерпнута из обзора организма [Organism Overview]). [1] Число сборок генома. Более подробную информацию о сборках генома можно получить, пройдя по соответствующей ссылке колонки Assemblies. На данный момент имеется одна сборка генома, принадлежащая самке одомашненной формы банкивской джунглевой курицы (инбредная линия UCD001), распространенной исходно в Юго-Восточной Азии (Рис. 3). Число проектов и образцов. Можно найти 3 проекта по секвенированию организма (BioProjects) (PRJNA10808, PRJNA13342, PRJNA10807), и всего 1 образец SAMN02981218 (BioSample). Из исходной таблицы (Рис. 4) ведет ссылка только на проект PRJNA10808 (референсный геном), но среди связанных с ним проектов указаны сборка митохондриального генома (PRJNA10807) и сборка 12Х 454 (с 12-кратным покрытием на 454 платформе - PRJNA13342). Описание образца. На Рис. 5 представлено описание образца SAMN02981218 (BioSample) с сайта NCBI (ссылка). В описании указано следующее:
Описание проекта (PRJNA10808) Данный проект представляет собой сборку референсной последовательности генома Gallus gallus, осуществленную NCBI в соответствии с инструкциями Genome Sequencing Center at the Washington University School of Medicine in St. Louis. Собранный геном был распространен в Сети с помощью сетевого протокола (FTP - File Transfer Protocol), и его можно посмотреть в браузерах, предоставленных NCBI, Ensembl, и University of Santa Cruz (UCSC). Описание и информация о проекте представлены на Рис. 6. На Рис. 7 содержится дополнительная информация о сборке, проектах SRA (архив ридов), подаче проекта (Submission), а также систематическое положение и ссылки на публикации и другие проекты. Данные о проекте также отражены в Таблице 1. Разобраться в параметрах помог словарь (BioProject Glossary). [2] Таблица 1. Описание проекта PRJNA10808.
Контиги & скэффолды. Далее требовалось проанализировать информацию, касающуюся контигов и скэффолдов.
Если пройти по ссылке WGS Project, то можно получить информацию о скэффолдах (их 4 - строки WGS_SCAFLD) и контигах (пройти далее по ссылкеWGS): их 27102. Ссылка на таблицу с контигами (файл в формате .txt с сайта): таблица. Для контигов указаны следующие параметры:
Ссылка на последовательность контига ctg7180000706126 (длина 77,557; accession: AADN03000001): fasta. Задание 2. Митохондриальные гены мха. В данном задании требовалось построить таблицу митохондриальных генов мха. В моем случае, мха Racomitrium elongatum (Рис. 8). Далее в базе данных Nucleotide (NCBI) я нашла митохондриальный геном моего мха. Для этого я использовала запрос (Racomitrium elongatum[ORGN]) AND mitochondrion[FILT] (того же результата можно достичь, если просто ввести запрос Racomitrium elongatum mitochondrion). Я получила 2 результата, которые отличаются датой и тем, что первая - референсная последовательность с NCBI, а вторая из GenBank. В дальнейшем буду работать с первой (она не намного свежее, но насколько я помню, в GenBank хуже определены концы последовательностей; судя по тому, что авторы одни и те же, сначала результаты поступают в GenBank, а потом проверяются и поступают на сайт NCBI). Пройдя по первому результату, я затем прошла по ссылке Genome в разделе Related information. Там представлена таблица с количеством генов в митохондриальной ДНК (Рис. 9). Итак:
Затем прошла по ссылке Gene в разделе Related information, где представлена таблица с иформацией обо всех генах. Ее нужно было сохранить так, чтобы гены располагались в порядке следования по цепи ДНК. Для этого я воспользовалась опцией Sort by Chromosome. Ссылка на файл со всеми генами: genes. Задание 3. Ключи для таблицы особенностей (Feature Table). Для выполнения данного задания я воспользовалась документом, посвященным таблице особенностей, с сайта INSDC. [3] Примеры для каждого ключа было удобно искать на сайте NCBI в базе данных Nucleotides по полю [Feature Key] (можно [FKEY]). Результатом выполнения задания является Таблица 2. Таблица 2. 10 ключей для таблицы особенностей.
Часть II Задание 4. Какому гену принадлежит последовательность? В данном задании требовалось установить, какому гену принадлежит последовательность, полученная в практикуме 6 (последовательность), и таксономию организма. Для этого я использовала ресурс BLASTN, который осуществляет поиск последовательностей ДНК по базе nr, получив на входе последовательность ДНК. Запуск я совершала с сайта BLAST, алгоритм - Somewhat similar sequences (blastn), все параметры оставила по умолчанию. На Рис. 10 можно видеть часть результата работы программы: отображено 10 достоверных находок (E-value = 0.0, покрытие входной последовательности свыше 90%, процент идентичности свыше 80). Для последующей работы я отобрала 3 лучшие находки из достоверных, у которых процент идентичности превышает 90 (на Рис. 10 выделены черной рамкой). Как видно из Рис. 10, две первые находки принадлежат к роду Polycirrus medusa, а третья - Polycirrus sp. BOLD:AAI2761. Таким образом, все эти находки представляют собой виды рода Polycirrus - представителя многощетинковых кольчатых червей (Рис. 11а). На Рис. 11b можно ознакомиться с таксономическим положением данного рода (легко получить, пройдя от находки на страницу в GenBank, а затем на ссылку с названием вида). Все три находки являются последовательностями митохондриального гена, кодирующего субъединицу 1 цитохромоксидазы. В качестве подтверждения - Рис. 12 со страницей в GenBank лучшей находки - Polycirrus medusa (в Таблице 3 представлены ссылки на страницы GenBank для каждой из 3 находок). В Таблице 3 для каждой находки представлены: вид организма, ссылка на страницу GenBank, количество и процент совпадений, выравнивание с исходной последовательностью (так как сходство очень велико, то было достаточно вручную сдвинуть последовательность-находку на 31 нуклеотид исходной последовательности). Таблица 3. Информация о находках.
Также с выравниваниями можно ознакомиться в проекте JalView. Как можно заметить, первые две находки полностью совпадают с исходной последовательностью (просто отсеквенированная последовательность немного длиннее последовательности гена), а между собой эти находки отличаются только длиной (2 нуклеотида). Третья находка принадлежит неопределенному виду рода Polycirrus, и она имеет уже 92% сходства. Можно заключить:
Использованные ресурсы: |