Практикум 7. Нуклеотидные банки данных

Задания 1-2. Выбор сборки и ее характеристика

В качестве организма был выбран Bufo bufo (Жаба обыкновенная). Он представляет из себя вид безхвостых земноводных из семейства настоящих жаб (Bufonidae). Одна из крупнейших жаб в России, известна не только своим сумеречным образом жизни, но и историей получения видового названия. Впервые обыкновенную жабу описал Карл Линней, и ввиду "противности жабы" дал ей видовое название в честь своего научного оппонента – натуралиста Жорж-Луи Бюффона.

По эукариоту было найдено 2 сборки: уровня Chromosome и уровня Scaffold.Выбранная сборка: aBufBuf1.1. Она имеет качество уровня Chromosome, является референсной и имеет гены, аннотированные в GenBank и в RefSeq, то есть сборка удовлетворяет всем требованиям.

ПараметрЗначение
GenBank IDGCA_905171765.1
RefSeq IDGCF_905171765.1
Уровень сборкиChromosome
Размер генома5 Gb
Число хромосом11
Число скаффолдов1,306
Scaffold N50635.7 Mb
Scaffold L504
Число контигов5,501
Contig N504 Mb
Contig L50350
Таблица 1. Информация о сборке aBufBuf1.1
Рис. 1. Жаба Буфа-Буфа рада Вас видеть

N50 – максимальная длина фрагмента, для которого суммарная длина всех фрагментов составляет не менее 50% от суммарной длины всех фрагментов. L50 – минимальное количество фрагментов, суммарная длина которых превышает 50% от суммарной длины всех фрагментов. Фрагменты – скэффолды или контиги.

Задание 3. Скачивание файлов

Скачивание бфло выполнено через систему поиска на сайте, в качестве источника использовался RefSeq (Select file source: RefSeq only), поскольку только в этом банке был файл с последовательностями белков. Файлы нуклеотидных последовательностей генома и последовательностей генома с аннотацией (GBFF) были скачаны на домашний компьютер, так как их суммарный размер составил около 3 ГБ. Файл последовательностей белков (protein.faa) расположен здесь.

Задание 4. Поиск пепсина в NCBI и ENA

В качестве белка был выбран пепсин – пищеварительный фермент, осуществляющий гидролиз белков, полученных с пищей, до более мелких пептидов.

Поиск на сайте NCBI

База данныхmRNAgenomic DNA/RNAВсего
GenBank218 (8)14 (0)233 (8)
RefSeq2172 (2)0 (0)2186 (2)
Всего2390 (10)14 (0)2419 (10)
Таблица 2. Поиск пепсина в NCBI. В скобках обозначено число последовательностей, принадлежащих человеку

Был проведен поиск по нуклеотидам на сайте NCBI, использовались запросы pepsin[title] для поиска по всем организмам и (pepsin[Title]) AND homo sapiens[Organism] для поиска по белкам, относящемся к человеку. Для поискам по категориям (mRNA, genomic DNA/RNA, INSDC (GenBank), RefSeq) использовались фильтры.

Подавляющее большинство последовательностей представлено в RefSeq и относится к мРНК (2172 записи, из которых 2 для человека). Хотя в GenBank записей на порядок меньше, из них 8 соотетсвуют человеку. Геномных последовательностей в RefSeq не найдено, а в GenBank их всего 14, и ни одна из них не принадлежит человеку. Можно сказать, что для пепсина наиболее полная и структурированная информация в NCBI представлена в виде аннотированных мРНК-последовательностей в базе RefSeq.

Я попробовал выяснить, все ли записи содержат последовательности, кодирующие белки с функцией пепсина. Из 2419 последовательностей 60 принадлежало растениям, из которых не все являются "хищными". Например, мРНК пепсина была обнаружена в кукурузе сахарной (Zea Mays). В подавлеющем большинстве случаев для кукурузы не характерно гетеротрофное питание, следовательно, нет необходимости в пищеварительых ферментах. Возможно, в данном случае белок выполняет другую функцию или мРНК была занесена в клетки кукурузы извне (например, в составе винусного вектора).

Поиск на сайте ENA

На сайте ENA с помощью расширенного поиска (выбор Nucleotide sequences в поле Data Type, указание запроса в Query) был выполнен поиск нуклеотидных последовательностей человека, содержащих в полях Description или Scientific Name слово pepsin. Найдено 8 мРНК и ни одной геномной последовательности.
Запрос для мРНК: tax_eq(9606) AND (scientific_name="pepsin" OR description="pepsin") AND mol_type="mrna"
Запрос для геномных последовательностей: tax_eq(9606) AND (scientific_name="pepsin" OR description="pepsin") AND mol_type="genomic dna"