Банки нуклеотидных последовательностей
Задание 1. Характеристика качества сборки генома Corynespora casiicola
Был выбран многоклеточный эукариот - Corynespora casiicola - патогенный гриб, относящийся к Аскомицетам. Этот гриб наиболее распространен в тропическом и субтропическом климате и наносит серьезный вред сельскохозяйственным культурам, таким как огурец, каучук, соя, помидор. На помидорах болезнь проявляется в виде пятен на листьях со светлыми центрами и темными краями. Развитию этого патогена способствует высокая влажность.
![Лист, пораженный грибом](Corynespora.png)
Название сборки | ASM90016954v1 |
---|---|
AC сборки | GCA_900169545.1 |
Уровень сборки | Скэффолды |
Общая длина сборки | 42503748 |
Число контигов | 1437 |
L50 | 47 |
N50 | 280862 |
Число скэффолдов | 774 |
L50 | 32 |
N50 | 418519 |
Страница с описанием проекта | PRJEB19843 |
Последовательность одного из контигов | Файл |
Из 39 сборок была выбрана одна с самым высоким уровнем. Чтобы получить файл с последовательностью контига со страницы сборки я перешла по ссылке в столбце WGS и далее по ссылке в поле WGS. Из всех файлов с контигами я скачала самый первый.
Задание 2. Последовательность CDS одного из прокариотических вирусов
В поле Search на сайте NCBI был введен следующий запрос Sphaerolipoviridae[Organism] and 30000:40000[sequence length] по Nucleotide. Найдено было всего 6 подходящий организмов, все с полным геномом, 3 из RefSeq и 3 из GenBank. Я выбрала вирус Haloarcula phage SH1 с AC: AY950802.1. Все данные приведены в таблице 2. Нажав на "Send to" и далее "Coding sequencе" был получен файл в формате fasta с участками гена, предположительно кодирующими белки.
АС | AY950802.1 |
---|---|
Латинское название | Haloarcula hispanica virus SH1 |
TaxID вида | 326574 |
Тип генома | линейная dsDNA |
Хозяин вируса | архея Haloarcula hispanica |
Файл с участками генома, предположительно кодирующими белки. | Файл |
Задание 3. Таблица особенностей.
Вся информация была найдена на сайте INSDC.
Ключ | Значение | Пример |
---|---|---|
intron | Участки гена, копии которых удаляются из мРНК в результате сплайсинга | 568..788 /gene="ubc42" /number=1 |
regulatory | Любой участок последовтаельности, функция которого регуляция таких процессов, как транскрипция, трансляция, репликация и образование структуры хроматина. | 179..184 /operon="gal" /regulatory_class="minus_10_signal" |
V_region | Вариабильный участок тяжелых и легких цепей иммуноглобулинов, субъединиц alpha, beta и gamma Т-клеточного рецептора; коды для вариабильных N-концов. Может включать V_segments, D_segments, N_regions и J_segments | 1..277 /gene="VFM1" /product="immunoglobulin heavy chain variable region" |
5'UTR | Это участок 5`-конца зрелого транскрипта, который не транслируется в белок | 5'UTR 24..319 |
telomere | Участок, который идентифицировали как теломеру. | complement(1..7223) /note="TEL16L; Telomeric region on the left arm of Chromosome XVI; annotated components include an X element core sequence, X element combinatorial repeats, and a long Y' element; TEL16L does have telomeric repeats (TEL16L-TR), but they are missing from the genome annotation due to difficulties encountered during sequencing and/or assembly" /db_xref="SGD:S000028933" |
stem_loop | Шпилька, которая образуется, когда нуклеотиды одной цепи комплементарны и соединяются друг с другом, образуя петлю | stem_loop 275..289 |
rep_origin | Точка начала репликации, участок, с которого начинается репликация нуклеиновой кислоты | rep_origin 6 /direction=LEFT /note="ori" |