В качестве организма был выбран Bufo bufo (Жаба обыкновенная). Он представляет из себя вид безхвостых земноводных из семейства настоящих жаб (Bufonidae). Одна из крупнейших жаб в России, известна не только своим сумеречным образом жизни, но и историей получения видового названия. Впервые обыкновенную жабу описал Карл Линней, и ввиду "противности жабы" дал ей видовое название в честь своего научного оппонента – натуралиста Жорж-Луи Бюффона.
По эукариоту было найдено 2 сборки: уровня Chromosome и уровня Scaffold.Выбранная сборка: aBufBuf1.1. Она имеет качество уровня Chromosome, является референсной и имеет гены, аннотированные в GenBank и в RefSeq, то есть сборка удовлетворяет всем требованиям.
| Параметр | Значение |
|---|---|
| GenBank ID | GCA_905171765.1 |
| RefSeq ID | GCF_905171765.1 |
| Уровень сборки | Chromosome |
| Размер генома | 5 Gb |
| Число хромосом | 11 |
| Число скаффолдов | 1,306 |
| Scaffold N50 | 635.7 Mb |
| Scaffold L50 | 4 |
| Число контигов | 5,501 |
| Contig N50 | 4 Mb |
| Contig L50 | 350 |
N50 – максимальная длина фрагмента, для которого суммарная длина всех фрагментов составляет не менее 50% от суммарной длины всех фрагментов. L50 – минимальное количество фрагментов, суммарная длина которых превышает 50% от суммарной длины всех фрагментов. Фрагменты – скэффолды или контиги.
Скачивание бфло выполнено через систему поиска на сайте, в качестве источника использовался RefSeq (Select file source: RefSeq only), поскольку только в этом банке был файл с последовательностями белков. Файлы нуклеотидных последовательностей генома и последовательностей генома с аннотацией (GBFF) были скачаны на домашний компьютер, так как их суммарный размер составил около 3 ГБ. Файл последовательностей белков (protein.faa) расположен здесь.
В качестве белка был выбран пепсин – пищеварительный фермент, осуществляющий гидролиз белков, полученных с пищей, до более мелких пептидов.
| База данных | mRNA | genomic DNA/RNA | Всего |
|---|---|---|---|
| GenBank | 218 (8) | 14 (0) | 233 (8) |
| RefSeq | 2172 (2) | 0 (0) | 2186 (2) |
| Всего | 2390 (10) | 14 (0) | 2419 (10) |
Был проведен поиск по нуклеотидам на сайте NCBI, использовались запросы pepsin[title] для поиска по всем организмам и (pepsin[Title]) AND homo sapiens[Organism] для поиска по белкам, относящемся к человеку. Для поискам по категориям (mRNA, genomic DNA/RNA, INSDC (GenBank), RefSeq) использовались фильтры.
Подавляющее большинство последовательностей представлено в RefSeq и относится к мРНК (2172 записи, из которых 2 для человека). Хотя в GenBank записей на порядок меньше, из них 8 соотетсвуют человеку. Геномных последовательностей в RefSeq не найдено, а в GenBank их всего 14, и ни одна из них не принадлежит человеку. Можно сказать, что для пепсина наиболее полная и структурированная информация в NCBI представлена в виде аннотированных мРНК-последовательностей в базе RefSeq.
Я попробовал выяснить, все ли записи содержат последовательности, кодирующие белки с функцией пепсина. Из 2419 последовательностей 60 принадлежало растениям, из которых не все являются "хищными". Например, мРНК пепсина была обнаружена в кукурузе сахарной (Zea Mays). В подавлеющем большинстве случаев для кукурузы не характерно гетеротрофное питание, следовательно, нет необходимости в пищеварительых ферментах. Возможно, в данном случае белок выполняет другую функцию или мРНК была занесена в клетки кукурузы извне (например, в составе винусного вектора).
На сайте ENA с помощью расширенного поиска (выбор Nucleotide sequences в поле Data Type, указание запроса в Query)
был выполнен поиск нуклеотидных последовательностей человека, содержащих в полях Description или
Scientific Name слово pepsin. Найдено 8 мРНК и ни одной геномной последовательности.
Запрос для мРНК: tax_eq(9606) AND (scientific_name="pepsin" OR description="pepsin") AND mol_type="mrna"
Запрос для геномных последовательностей: tax_eq(9606) AND (scientific_name="pepsin" OR description="pepsin") AND mol_type="genomic dna"