Мной был выбран геном Caenorhabditis elegans, свободноживущей нематоды (1 мм). Первые исследования данного вида датированы 1974 годом (работы Сиднея Бреннера). Червя используют как модельный организм в исследованиях по генетике, нейрофизиологии, биологии развития. В 1986 году был полностью описан его коннектом. Геном полност ью секвенирован и опубликован в 1998 году (дополнен в 2002). Картинку можно посмотрет ь по ссылке.
С помощью NCBI была составлена таблица 1 с характеристикой лучшей из 6 сборок генома.
Название сборки | AC из GenBank | «Уровень» сборки | Длина последовательности | Число контигов | N50 (для контигов) | L50 (для контигов) | Число скэффолдов | N50 (для скэффолдов) | L50 (для скэффолдов) | Число аннотированных белков |
Cael_CB4856_1.0 | GCA_000975215.1 | Chromosome | 98,302,807 | 17 | 14,890,789 | 3 | 16 | 17,183,857 | 3 | – |
Была получена ссылка на одну из публикаций из BioProject NCBI. Контиг в формате FASTA был скачен с помощью раздела WGS Master со страницы выбранной сборки.
Поиск произведен в NCBI по Nucleotide. Текст запроса: (("Tectiviridae"[Organism]) AND 10000:20000[SLEN]). Было найдено 25 подходящих геномов, из них 18 в INSDC (GenBank) , 7 в RefSeq. Информация получена из колонки Source databases. Затем был выбран геном вируса и по нему сделана таблица 2.
AC нуклеотидной записи | Латинское название/TaxID вида | Тип генома | Хозяин вируса |
NC_042083.1 | Gluconobacter virus GC1/ 2047788 | linear ds-DNA | Gluconobacter cerinus |
Также получен файл с предположительно кодирующими последовательностями CDS(Send to – coding sequences – format: FASTA Nucleitide).
На INSDC.org , был рассмотрен feature table document c информацией по ключам. Некоторые из них представлены в таблице 3.
misc_difference | данная последовательность отличается от представленной в записи и не может быть описана никакими другими ключами различия (old_sequence, variation, modified_base) | KR709472
misc_difference 337 /gene="PTS" /note="compared to parent clone; results in K to R substitution" /replace="a" |
repeat_region | Область генома, содержащая повторяющиеся участки | LC217340
repeat_region 81..98 /rpt_type=tandem /rpt_unit_seq="ta" /satellite="microsatellite:Pre_2" |
misc_structure | любая вторичная или третичная нуклеотидная структура или конформация, которая не может быть описана другими структурными ключами (stem_loop и D-loop) | LC075726
misc_structure 88..>338 /note="cox2-cox3 intergenic spacer" |
C_region | сайт легких и тяжелых цепей иммуноглобулина или альфа-, бета- и гамма-цепей Т-клеточного рецептора | D16595
C_region 112..>138 /note="T cell receptor alpha chain constant region" |
mobile_element | область генома, содержащая мобильные элементы | GQ338995
mobile_element 1..168 /mobile_element_type="SINE:PRE-1 P17" |
oriT | Участок последовательности, с которого начинается трансфер ДНК в процессе конъюгации или мобилизации. | MN241905
oriT complement(56831..56913) /note="minimum oriT sequence" |
rep_origin | сайт, с которого начинается репликация | EU499643
rep_origin 1..442 /note="oriV; conserved part of vegetative replication origin including interons |