Учебный сайт Левина Ильи, 3-й семестр

Банки нуклеотидных последовательностей

Задание 1

Для того, чтобы найти какую-либо последовательность, взятую из организма, который был взят на ББС, я написал скрипт на Python с использованием модуля Bio.Entrez. Ему аргументом командной строки подаётся текст запроса, по которому и программа и будет, собственно, искать. Результатом деятельности программы является вывод в консоль 5-ти первых найденных записей (это я задал специально) в формате GenBank.

(base) lewis@LewisMacbook Downloads % python3 5_query_search_nucleotide.py 'WSBS'    
LOCUS       MN240289                 503 bp    DNA     linear   INV 24-APR-2020
DEFINITION  Sarsia lovenii isolate S24 internal transcribed spacer 1, partial
            sequence; 5.8S ribosomal RNA gene and internal transcribed spacer
            2, complete sequence; and large subunit ribosomal RNA gene, partial
            sequence.
ACCESSION   MN24028 
    ..........

5 handles here...

    ..........
      481 ttgctttaac ttaaccgggt tcacccagag gttcgcctca aaatctacat tttgacctca
      541 gatcagacaa gactacccgc tga
//


(base) lewis@LewisMacbook Downloads %

Какую бы вариацию запроса про ББС я не подавал, выдавало мне всё одну и ту же запись (АС: MN240289) разных версий редактирования, но в тексте записи про ББС вообще не было ни слова. Тогда я решил почитать статью PubMed, ID которой я нашёл прямо в тексте записи. В статье в аффилиациях была указана ББС МГУ им. Перцова, а также в "Материалах и методах" написно, что "все медузы и гидры рода Sarsia были собраны рядом с Беломорской биологической станцией...", поэтому я уверен, что данная нуклеотидная последовательность взята из организма с ББС.

Описание записи:

AC записи: MN240289;
Это у нас ДНК, длиной 503 пары оснований. Дата депонирования: 24 апреля 2020;
Авторы записи: Прудковский А. А., Екимова И. А. и Неретина Т. В.;
Организм: Sarsia lovenii (гидра с явным чередованием равных поколений полипа и медузы);
В source ну вот вообще ничего интересного;
Название гена: 5.8S рРНК и рРНК большой субъединицы (неполная последовательность);
wsbs_seq.fasta, скачана с помощью скрипта.

Задание 2

Я решил посмотреть геном обычной комнатной мухи (Musca domestica).

Муху эту мы все знаем, так как она встречается почти в каждом доме. Но стоит отметить, что в России распространено 2 её вида: обыкновенная и южная комнатные мухи (Musca domestica domestica и Musca domestica vicina), в то время как референсная сборка генома указывается лишь для одной. Муха эта - типичный синантропный организм (то есть такой, чья жизнедеятельность тесно связана с жизнедеятельностью человека. К синантропным организмам можно также отнести тараканов).

Musca.domestica.female.jpg — Рис. 1. Самка комнатной мухи (источник)

В NCBI я нашёл всего 3 сборки генома комнатной мухи, и только один из них был на уровне скэффолда. Её я, собственно, и выбрал, как лучшую.

Название сборки: Musca_domestica-2.0.2;
RefSeq AC сборки: GCF_000371365.1;
"Уровень" сборки: скэффолд;
Общая длина последовательности: 750,403,944;
Число контигов: 104,054;
Число скэффолдов: 20,487;
Контиг N50: 11,807;
Контиг L50: 14,933;
Скэффолд N50: 226,573;
Скэффолд L50: 809;
Число аннотированных белков: 0. При этом у копии сборки в RefSeq было найдено 21,309 аннотированных белков;
Ссылка на публикацию с описанием проекта (BioProject);
Ссылка на последовательность одного из контигов в формате fasta. Чтобы получить эту последовательность, я по ссылке перешёл в WGS проект, там по ещё одной ссылке в поле "WGS" в самой записи проекта перешёл на страничку со списком контигов. Там я уже рядом с самим выбранным мною контигом в столбце "View" выбрал формат "FASTA", а после увидел и скачал то, что мне нужно.

Задание 3

Сначала я в строке поиска NCBI по Nucleotide просто вбил название своего коронавируса "Merbecovirus". Результатом поиска была база NCBI Virus с таблицей из 1500+ находок. В ней (в таблице) я сразу добавил несколько столбцов (Nuc Completeness, Genotype) и несколько убрал (Geo Location, USA), и сохранил всю таблицу в формате csv и импортировал в Excel, где удобным для меня способом отфильтровал нужные мне находки.

В итоге всего 559 находок с полным геномом, и только 5 из них из в RefSeq.

Задание 4

АС: NC_038294;
Название вида: Merbecovirus;
TaxID NCBI: 1263720;
Тип генома: линейный ssРНК положительный геном;
Хозяин: человек;
Файл с последовательностями, которые, предположительно, являются кодирующими белки участками генома. Получил я его с помощью таких манипуляций: Send to: > Coding sequences на странице генома в GenBank, после чего выбрал формат "FASTA Nucleotide" и скачал.

Задание 5

Расскажу я про массовый геномный проект про секвенирование 10,000 геномов разных рыб. Авторы указывают, что в отличие от геномов птиц и млекопитающих, которых, по их мнению, секвенируют гораздо больше, чем рыб, полных отсеквенированных геномов рыб на момент создания проекта крайне мало (216 геномов в 56 отрядах из 80 отрядов рыб). Наличие достаточного количества качественно отсеквенированных геномов рыб позволило бы гораздо лучше преисполниться в их познании, отмечают авторы.

План проекта таков:

1 и 2 стадии: отсеквенировать геномы организмов как минимум из одного вида каждого семейства и отряда, используя synthetic long-read sequencing, third generation long-read sequencing вместе с Hi-C sequencing для более качественного секвенирования;
3 стадия: отсеквенировать оставшиеся виды рыб до 10,000, используя более ресурсо-, материалозатратные и быстрые способы секвенирования, чтобы в меньший промежуток времени получить больше пусть и более грубо отсеквенированных геномов.

Рис. 2. План массового геномного проекта Fish10k (источник)

Результатом проекта является 10,000 полностью отсеквенированных геномов 10,000 видов рыб, по одному из каждого. Авторы сообщают, что полученные данные помогут "лучше понимать рыб" и "ускорят их геномные исследования".

Название проекта: The 10,000 fish genomes project (Fish10K);
Ссылка на страницу в NCBI BioProject, ссылка на веб-страницу самого проекта;
Цель: полностью отсеквенировать 10,000 геномов организмов из 10,000 видов рыб так, чтобы охвачены были все отряды и семейства;
Год начала: 2019;
Год окончания: проект ещё не завершён;
Организации: BGI-Q и Frasergen;
Страна: Китай;
Планируемое число геномов: 10,000;
Отсеквенировано на данный момент (31.10.2020): 105;
1, 2, 3 последние публикации по проекту в PubMed (17.06.2020).