Учебный сайт Левина Ильи, 3-й семестр

Банки нуклеотидных последовательностей

Задание 1

Для того, чтобы найти какую-либо последовательность, взятую из организма, который был взят на ББС, я написал скрипт на Python с использованием модуля Bio.Entrez. Ему аргументом командной строки подаётся текст запроса, по которому и программа и будет, собственно, искать. Результатом деятельности программы является вывод в консоль 5-ти первых найденных записей (это я задал специально) в формате GenBank.

(base) lewis@LewisMacbook Downloads % python3 5_query_search_nucleotide.py 'WSBS'    
LOCUS       MN240289                 503 bp    DNA     linear   INV 24-APR-2020
DEFINITION  Sarsia lovenii isolate S24 internal transcribed spacer 1, partial
            sequence; 5.8S ribosomal RNA gene and internal transcribed spacer
            2, complete sequence; and large subunit ribosomal RNA gene, partial
            sequence.
ACCESSION   MN24028 
    ..........

5 handles here...

    ..........
      481 ttgctttaac ttaaccgggt tcacccagag gttcgcctca aaatctacat tttgacctca
      541 gatcagacaa gactacccgc tga
//


(base) lewis@LewisMacbook Downloads % 

Какую бы вариацию запроса про ББС я не подавал, выдавало мне всё одну и ту же запись (АС: MN240289) разных версий редактирования, но в тексте записи про ББС вообще не было ни слова. Тогда я решил почитать статью PubMed, ID которой я нашёл прямо в тексте записи. В статье в аффилиациях была указана ББС МГУ им. Перцова, а также в "Материалах и методах" написно, что "все медузы и гидры рода Sarsia были собраны рядом с Беломорской биологической станцией...", поэтому я уверен, что данная нуклеотидная последовательность взята из организма с ББС.

Описание записи:

Задание 2

Я решил посмотреть геном обычной комнатной мухи (Musca domestica).

Муху эту мы все знаем, так как она встречается почти в каждом доме. Но стоит отметить, что в России распространено 2 её вида: обыкновенная и южная комнатные мухи (Musca domestica domestica и Musca domestica vicina), в то время как референсная сборка генома указывается лишь для одной. Муха эта - типичный синантропный организм (то есть такой, чья жизнедеятельность тесно связана с жизнедеятельностью человека. К синантропным организмам можно также отнести тараканов).

Musca.domestica.female.jpg
Рис. 1. Самка комнатной мухи (источник)

В NCBI я нашёл всего 3 сборки генома комнатной мухи, и только один из них был на уровне скэффолда. Её я, собственно, и выбрал, как лучшую.

Задание 3

Сначала я в строке поиска NCBI по Nucleotide просто вбил название своего коронавируса "Merbecovirus". Результатом поиска была база NCBI Virus с таблицей из 1500+ находок. В ней (в таблице) я сразу добавил несколько столбцов (Nuc Completeness, Genotype) и несколько убрал (Geo Location, USA), и сохранил всю таблицу в формате csv и импортировал в Excel, где удобным для меня способом отфильтровал нужные мне находки.

В итоге всего 559 находок с полным геномом, и только 5 из них из в RefSeq.

Задание 4

Задание 5

Расскажу я про массовый геномный проект про секвенирование 10,000 геномов разных рыб. Авторы указывают, что в отличие от геномов птиц и млекопитающих, которых, по их мнению, секвенируют гораздо больше, чем рыб, полных отсеквенированных геномов рыб на момент создания проекта крайне мало (216 геномов в 56 отрядах из 80 отрядов рыб). Наличие достаточного количества качественно отсеквенированных геномов рыб позволило бы гораздо лучше преисполниться в их познании, отмечают авторы.

План проекта таков:

fish10k_plan.png
Рис. 2. План массового геномного проекта Fish10k (источник)

Результатом проекта является 10,000 полностью отсеквенированных геномов 10,000 видов рыб, по одному из каждого. Авторы сообщают, что полученные данные помогут "лучше понимать рыб" и "ускорят их геномные исследования".