Мной был выбран геном осьминога Octopus bimaculoides. Для него известна одна сборка генома. Его видового названия нет в русском варианте, но калька с английского звучит так: "Калифорнийский осьминог с двумя пятнами". Что, в принципе, логично,
потому что macula переводится с латыни как пятно.
Данный осьминог выделяется среди всех остальных своими двумя пятнами по обе стороны от головы. Он очень интересен исследователям, потому что является единственным представителем мягкотелых головоногих, чей геном был полностью секвенирован. Особых причин для выбора именно этого вида не было, возможно, исследователи полагались на его широкую распространенность и внешнюю привлекательность. В целом, осьминоги - интересный объект для изучения благодаря их сложному поведению и необычной эволюции. Осьминоги даже послужили источником вдохновения для робототехников, которые придумали особо подвижные руки для своих роботов
(ссылка на статью).
Учитывая замечательность объекта, сборка его генома стала в своём роде событием и была опубликована в nature (ссылка на статью).
Текст запроса в Nucleotide NCBI:
"Inoviridae"[Organism] AND (complete[All Fields] AND genome[All Fields]) AND ("7000"[SLEN] : "8000"[SLEN]).
Общее число находок 38, из них 24 GenBank и 14 RefSeq.
Мной был выбран геном бактериофага Ralstonia (ссылка).
Данный бактериофаг известен тем, что он заражает бактерии Ralstonia solanacearum, образующие бляшки в ксилеме растений.
Описание генома, часть данных была получена отсюда.
B-клетки могут производить разные типы
иммуноглобулинов (IgM, IgG и т.д.).
CSR (class-switch recombination) - рекомбинация,
при которой заменяется константный участок тяжёлой цепи.
Данный идентификатор обозначает координаты и прочие х-ки области рекомбинации
2
telomere
область, для которой экспериментально доказано,
что она является теломерой
3
tmRNA
tRNA с mRNA-подобным доменом, в котором находится ORF.
Помогает застрявшим рибосомам освободиться от mRNA и способствует разрушению дефектного пептида.
4
source
обязательный ключ, являющийся указанием на источник определённого промежутка
последовательности. Допускается более одного источника.
5
propeptide
Пропептид - предшественник белка, который становится активным белком в результате пост-трансляционных модификаций.
Ключ указывает на вырезаемую последовательность
Был написан небольшой pyhton-ноутбук с реализацией поиска массовых геномных проектов.
Подробное описание работы ноутбука:
1) от пользователя требуется ввести, для какого организма (или группы
организмов) требуется найти геномные проекты.
2) затем мы интересуемся у пользователя, что ему важнее: полнота нашего ответа
или скорость.
3) сначала выбираем несколько подходящих нам результатов из интернета (не вручную, разумеется).
4) если пользователю важно найти как можно больше геномных проектов, осуществляем
следующее: обходим все ссылки, дающиеся нам на найденных сайтах. Если
по ссылке находится название нашего организма и слова "group" и "project",
тогда добавляем ссылку к нашим результатам.
5) объединяем те сайты, которые мы нашли в п.3 и в п.4, убираем повторяющиеся.
6) чтобы обнаружить в получившихся ссылках именно геномные проекты,
проводим "машин-лернинг для самых маленьких". Превращаем слова в бинарные признаки,
отбираем признаки, делаем кластеризацию по k-means, выдаём
найденные сайты наборами по числу кластеров. Прохождение по ссылкам
взваливаем на плечи пользователя, потому что мне не хватает ума для того, чтобы
сделать что-нибудь поэлегантнее.
Что не получилось
Не получилось посчитать всё, потому что на это может уйти несколько часов, а мне хочется спать.
Не получилось создать очень точный классификатор и автоматизировать установку количества кластеров.
Что получилось
Получилось собрать все ссылки, потенциально ведущие ко всем существующим геномным проектам.
Получилось всё же кластеризовать результаты, пусть некоторые совсем не туда, но тенденция к правильному прослеживается.
Осталось только ещё лучше разобраться, как пополнять список стоп-слов, и тогда всё будет работать совсем хорошо.
Ноутбук. Сообщения об ошибках - исключительно key board interrupt.
ССЫЛКА