Базы данных о нуклеотидных последовательностях.
Задание 1. Характеристика качества сборки генома эукариотического организма.
Для анализа была взята сборка GCA_000002285.2 генома Canis lupus familiaris (собаки домашней),
а конкретно, женской особи породы боксер.
Поиск в NCBI через базу данных Genome и Browse by organism выдал 4 сборки, была взята самая полная.
Для нее (GCA_000002285.2):
общая длина - 2410.98Mb
число контигов - 27,106
число скэффолдов - 3,310
N50 - 267,478
L50 - 2,436
число аннотированных белков - 58776
ссылка на публикацию с описанием проекта -
Characterization of HOX gene
expression in canine mammary tumour cell lines from spontaneous tumours.
ссылка на последовательность контига с Accession:AAEX03000001.1 в RefSeq -
AAEX03000001.1
Контиг с соответствующим accession был найден по ссылке в колонке WGS для соответствующей сборки.
Задание 2. Описание семи ключей, используемых в таблицах особенностей.
1. C_region - константный регион легких и тяжелых цепей иммуноглобулина, цепей альфа, бета и гамма
рецептора T-клеток, включает один или более экзонов в зависимости от конкретной цепи. Пример:

2. D_segment - сегмент тяжелой цепи иммуноглобулина и бета цепи рецептора Т-клеток, который
является следствием генетической рекомбинации при развитии лимфоцитов на ранних стадиях созревания
Т-клеток и отражает разнообразие рецепторов Т-клеток. Пример:

3. J_segment - соединяющий сегмент легкой и тяжелой цепей иммуноглобулина и цепей альфа, бета и гамма
рецептора Т-клеток. Пример:

4. misc_feature - биологически интересный регион, который не может быть описан другими ключами, то есть
это новая или редкая особенность. Пример:

5. misc_recomb - сайт обобщенного, специфичного для сайта или репликативного события рекомбинации,
где происходит поломка и сборка дуплекса ДНК, которая не может быть описана другими ключами рекомбинации
или квалификаторами ключа source. Пример:

6. regulatory - любой регион последовательноси, который участвует в регуляции транскрипции, трансляции,
репликации или в регуляции структуры хроматина. Пример:

7. V_segment - вариабельный сегмент легких и тяжелых цепей иммуноглобулина и цепей альфа, бета и гамма
рецептора Т-клеток, кодирует большинство вариабельных регионов (V_region) и последние несколько
аминокислот главного пептида. Пример:

Задание 3. Описание состояния дел в одном из массовых геномных проектов.
Название: The 100,000 Genomes Project (100 000 геномов людей).
Цель: создать геномную медицину в Государственной Службе Здравоохранения (NHS), дабы изменить путь людей,
о которых она заботится. Эта медицина будет совмещать медицинские записи с данными о геномной
последовательности. Планируется 100 000 геномов более 70 000 людей, участниками являются пациенты NHS, которые
имеют редкие заболевания, их семьи и больные раком
Год начала: 2012.
Ссылка на страницу:
https://www.genomicsengland.co.uk/the-100000-genomes-project/.
Организация: компания Genomics England, которая полностью принадлежит и финансируется Департаментом
Здравоохранения и Социальной защиты.
Страна: Англия.
Планируемое число геномов: 100 000.
Год завершения: в процессе.
Геномов секвенировано на октябрь 2018: 87 231.
Последняя публикация по проекту (ее нет на PubMed):
Challenges in implementing genomic medicine: the 100,000 Genomes Project.
Задание 4. Таблица митохондриальных организма Spizellomyces punctatus из таксона
Chytridiomycota.
Поиск проводился по ENA (EMBL) на сайте EBI. Текст запроса: mol_type="genomic DNA" AND
topology="CIRCULAR" AND tax_tree(109760) AND organelle="mitochondrion".
В Release 3 находки, в Update ни одной.
Название организма: Spizellomyces punctatus.
Фотография организма:

AC выбранной записи: AF404303.
С помощью функции grep -A 9 'FT CDS' из файла
AF404303.txt были получены строки, характеризующие CDS участки,
они были помещены в файл
help1.txt, из которого с помощью grep 'CDS', grep '/gene' и grep '/product'
были получены координаты, ориентация в геноме, название гена и название проукта
соответственно. Функцией grep '/protein_id' из файла AF404303.txt были получены
идентификаторы белков. Все эти данные были помещены в таблицу:
таблица генов белков, закодированных в митохондриальном геноме.
©Makarikova Olga 2018