Банки нуклеотидных последовательностей

Задание 1. Характеристика качества сборки генома Corynespora casiicola

Был выбран многоклеточный эукариот - Corynespora casiicola - патогенный гриб, относящийся к Аскомицетам. Этот гриб наиболее распространен в тропическом и субтропическом климате и наносит серьезный вред сельскохозяйственным культурам, таким как огурец, каучук, соя, помидор. На помидорах болезнь проявляется в виде пятен на листьях со светлыми центрами и темными краями. Развитию этого патогена способствует высокая влажность.

Лист, пораженный грибом
Рисунок 1. Лист томата, пораженный грибом.
Таблица 1.
Характеристика сборки генома Corynespora casiicola
Название сборки ASM90016954v1
AC сборки GCA_900169545.1
Уровень сборки Скэффолды
Общая длина сборки 42503748
Число контигов 1437
L50 47
N50 280862
Число скэффолдов 774
L50 32
N50 418519
Страница с описанием проекта PRJEB19843
Последовательность одного из контигов Файл

Из 39 сборок была выбрана одна с самым высоким уровнем. Чтобы получить файл с последовательностью контига со страницы сборки я перешла по ссылке в столбце WGS и далее по ссылке в поле WGS. Из всех файлов с контигами я скачала самый первый.

Задание 2. Последовательность CDS одного из прокариотических вирусов

В поле Search на сайте NCBI был введен следующий запрос Sphaerolipoviridae[Organism] and 30000:40000[sequence length] по Nucleotide. Найдено было всего 6 подходящий организмов, все с полным геномом, 3 из RefSeq и 3 из GenBank. Я выбрала вирус Haloarcula phage SH1 с AC: AY950802.1. Все данные приведены в таблице 2. Нажав на "Send to" и далее "Coding sequencе" был получен файл в формате fasta с участками гена, предположительно кодирующими белки.

Таблица 2.
АС AY950802.1
Латинское название Haloarcula hispanica virus SH1
TaxID вида 326574
Тип генома линейная dsDNA
Хозяин вируса архея Haloarcula hispanica
Файл с участками генома, предположительно кодирующими белки. Файл

Задание 3. Таблица особенностей.

Вся информация была найдена на сайте INSDC.

Таблица 3.
Изучение ключей таблицы особенностей
Ключ Значение Пример
intron Участки гена, копии которых удаляются из мРНК в результате сплайсинга
		568..788
                /gene="ubc42"
                /number=1
regulatory Любой участок последовтаельности, функция которого регуляция таких процессов, как транскрипция, трансляция, репликация и образование структуры хроматина.
		179..184
                /operon="gal" 
        	/regulatory_class="minus_10_signal"
V_region Вариабильный участок тяжелых и легких цепей иммуноглобулинов, субъединиц alpha, beta и gamma Т-клеточного рецептора; коды для вариабильных N-концов. Может включать V_segments, D_segments, N_regions и J_segments
		1..277
                /gene="VFM1"
                /product="immunoglobulin heavy chain variable region"
5'UTR Это участок 5`-конца зрелого транскрипта, который не транслируется в белок
5'UTR 24..319
telomere Участок, который идентифицировали как теломеру.
		complement(1..7223)
                /note="TEL16L; Telomeric region on the left arm of Chromosome XVI;
		annotated components include an X element core sequence, X element
		combinatorial repeats, and a long Y' element; TEL16L does have telomeric
		repeats (TEL16L-TR), but they are missing from the genome annotation due 
		to difficulties encountered during sequencing and/or assembly"
                /db_xref="SGD:S000028933"
stem_loop Шпилька, которая образуется, когда нуклеотиды одной цепи комплементарны и соединяются друг с другом, образуя петлю
stem_loop       275..289
rep_origin Точка начала репликации, участок, с которого начинается репликация нуклеиновой кислоты
		rep_origin 6
                /direction=LEFT
                /note="ori"