Базы данных о нуклеотидных последовательностях.



Задание 1. Характеристика качества сборки генома эукариотического организма.

Для анализа была взята сборка GCA_000002285.2 генома Canis lupus familiaris (собаки домашней), а конкретно, женской особи породы боксер. Поиск в NCBI через базу данных Genome и Browse by organism выдал 4 сборки, была взята самая полная.
Для нее (GCA_000002285.2):
общая длина - 2410.98Mb
число контигов - 27,106
число скэффолдов - 3,310
N50 - 267,478
L50 - 2,436
число аннотированных белков - 58776
ссылка на публикацию с описанием проекта - Characterization of HOX gene expression in canine mammary tumour cell lines from spontaneous tumours.
ссылка на последовательность контига с Accession:AAEX03000001.1 в RefSeq - AAEX03000001.1
Контиг с соответствующим accession был найден по ссылке в колонке WGS для соответствующей сборки.

Задание 2. Описание семи ключей, используемых в таблицах особенностей.

1. C_region - константный регион легких и тяжелых цепей иммуноглобулина, цепей альфа, бета и гамма рецептора T-клеток, включает один или более экзонов в зависимости от конкретной цепи. Пример:


2. D_segment - сегмент тяжелой цепи иммуноглобулина и бета цепи рецептора Т-клеток, который является следствием генетической рекомбинации при развитии лимфоцитов на ранних стадиях созревания Т-клеток и отражает разнообразие рецепторов Т-клеток. Пример:


3. J_segment - соединяющий сегмент легкой и тяжелой цепей иммуноглобулина и цепей альфа, бета и гамма рецептора Т-клеток. Пример:


4. misc_feature - биологически интересный регион, который не может быть описан другими ключами, то есть это новая или редкая особенность. Пример:


5. misc_recomb - сайт обобщенного, специфичного для сайта или репликативного события рекомбинации, где происходит поломка и сборка дуплекса ДНК, которая не может быть описана другими ключами рекомбинации или квалификаторами ключа source. Пример:


6. regulatory - любой регион последовательноси, который участвует в регуляции транскрипции, трансляции, репликации или в регуляции структуры хроматина. Пример:


7. V_segment - вариабельный сегмент легких и тяжелых цепей иммуноглобулина и цепей альфа, бета и гамма рецептора Т-клеток, кодирует большинство вариабельных регионов (V_region) и последние несколько аминокислот главного пептида. Пример:


Задание 3. Описание состояния дел в одном из массовых геномных проектов.

Название: The 100,000 Genomes Project (100 000 геномов людей).
Цель: создать геномную медицину в Государственной Службе Здравоохранения (NHS), дабы изменить путь людей, о которых она заботится. Эта медицина будет совмещать медицинские записи с данными о геномной последовательности. Планируется 100 000 геномов более 70 000 людей, участниками являются пациенты NHS, которые имеют редкие заболевания, их семьи и больные раком
Год начала: 2012.
Ссылка на страницу: https://www.genomicsengland.co.uk/the-100000-genomes-project/.
Организация: компания Genomics England, которая полностью принадлежит и финансируется Департаментом Здравоохранения и Социальной защиты.
Страна: Англия.
Планируемое число геномов: 100 000.
Год завершения: в процессе.
Геномов секвенировано на октябрь 2018: 87 231.
Последняя публикация по проекту (ее нет на PubMed): Challenges in implementing genomic medicine: the 100,000 Genomes Project.

Задание 4. Таблица митохондриальных организма Spizellomyces punctatus из таксона Chytridiomycota.

Поиск проводился по ENA (EMBL) на сайте EBI. Текст запроса: mol_type="genomic DNA" AND topology="CIRCULAR" AND tax_tree(109760) AND organelle="mitochondrion".
В Release 3 находки, в Update ни одной.
Название организма: Spizellomyces punctatus.
Фотография организма:



AC выбранной записи: AF404303.
С помощью функции grep -A 9 'FT CDS' из файла AF404303.txt были получены строки, характеризующие CDS участки, они были помещены в файл help1.txt, из которого с помощью grep 'CDS', grep '/gene' и grep '/product' были получены координаты, ориентация в геноме, название гена и название проукта соответственно. Функцией grep '/protein_id' из файла AF404303.txt были получены идентификаторы белков. Все эти данные были помещены в таблицу: таблица генов белков, закодированных в митохондриальном геноме.


©Makarikova Olga 2018