Задание 1
Латинское название организма: Penicillium digitatum
Русское название организма: Пеницилл пальчатый
Используя фильтры поиска по аннотированным сборкам с качеством на уровне хромосомы или выше, я получил одну сборку генома Penicillium digitatum, которая являктся референсной.
Задание 2
| Параметр | Значение |
|---|---|
| Идентификатор GenBank | GCA_016767815.1 |
| Идентификатор RefSeq | GCF_016767815.1 |
| Уровень сборки генома | Complete |
| Общий размер генома | 26,3 миллионов нуклеотидов |
| Число фрагментов генома в сборке | 6 хромосом |
| Scaffold N50 | 4.1 миллионов нуклеотидов |
| Scaffold L50 | 3 скаффолда |
| Contig N50 | 4.1 миллионов нуклеотидов |
| Contig L50 | 3 контига |
Где Contig N50 — максимальная длина контига, для которого контиги такой же или большей длины содержат в себе половину всех нуклеотидов сборки.
Где Contig L50 — минимальное число контигов, в которых содержится половина всех нуклеотидов сборки генома.
Определения Scaffold N50 и Scaffold L50 аналогичны определениям Contig N50 и Contig L50 с той лишь разницей, что одни характеризуют контиги (максимальная последовательность, собранная из перекрывающихся ридов), а другие скаффолды (последовательность контигов, между которыми остаются неизвестные участки. Источник скаффолдов - парноконцевые чтения).
Задание 3
Были скачаны 3 файла из NCBI FTP:
1)GCF_016767815.1_ASM1676781v1_genomic.fna.gz
2)GCF_016767815.1_ASM1676781v1_protein.faa.gz
3)GCF_016767815.1_ASM1676781v1_genomic.gbff.gz
Задание 4
NCBI
Я выбрал белок Histone H2A для поиска в NCBI nucleotide и использовал поисковой запрос "Histone H2A[Title]":
Всего записей с Histone H2A в названии: 20633
Из RefSeq: 17,404 (17227 из мРНК)
Из GenBank: 3,227 (775 из генома; 2431 из мРНК) - ещё 16 записей из transcribed RNA
Затем при помощи поискового запроса Histone H2A[Title] AND Homo[Organism] я нашел все записи, описывающие последовательности человека:
Из RefSeq: 3 (все 3 из мРНК)
Из GenBank: 87 (20 из генома, 66 из мРНК)
Оказалось что не во всех записях описывается Histone H2A, в некоторых описывается AlkBH1 - диоксигеназа гистона H2A, это можно проверить по запросу "H2AHistone H2A[Title] NOT alkB*[Gene Name]"
Этот запрос выдаёт 19615 записей вместо стандартных 20633, что означает, что примерно в 1000 записях последовательность кодирует не гистон, а фермент, катализирующий реакцию присоединения к гистону двух кислородов
ENA
В ENA advanced search я выбрал:
Data Type: Nucleotide sequences
Query: description="Histone H2A" AND scientific_name="Homo sapiens" AND mol_type="mrna"
Этот запрос позволит найти мне среди всех нуклеотидных последовательностей человеческие мРНК, которые содержат в описании Histone H2A. Таких записей 864
А запрос:
Data Type: Nucleotide sequences
Query: description="Histone H2A" AND scientific_name="Homo sapiens" AND mol_type="genomic dna"
Позволит найти мне записи человеческих генов, содержащих Histone H2A в описании. Таких записей нашлось 23
DDBJ