Учебная страница курса биоинформатики,
год поступления 2023
Инструкции по выполнению ДЗ_7
1. Импорт таблицы особенностей - Создайте Google sheet со всеми нужными страницами
Скорректированная инструкция по загрузке ...feature_table.txt на страницу Google sheet
- Скопируйте текст из вашего файла с особенностями в Google sheet на страницу feature_tables
- Note. ВАЖНО каким редактором вы открываете файл ...feature_table.txt См. ссылку из 1.a.Чтобы избежать ошибки, лучше следуйте инструкции на первой странице файла по этой ссылке. Получится таблица с колонками без дополнительных усилий, потому что в файле ...feature_table разделители полей — табуляторы (tab). Табуляторы как разделители колонок в ЭТ используются по умолчанию.
- ВАЖНО: строки полученной таблицы соответствуют объектам разного типа с частично различающимися списками полей. Тип объекта указан в колонке features.
- Вставьте колонку с идентификаторами строк
- Вставьте колонку левее колонки A
- Назовите её line_id
В ячейку A2 вставьте 1, в ячейку A3 — 2
- Выделите A2 и A3. Нажмите на значок справа снизу в выделенном. Ячейки колонки A заполнятся арифметической прогрессией, угаданной программой по выделению.
- Другой вариант: в A2 вставьте формулу =A1+1 и распространите её до конца таблицы
- Определите сколько объектов каждого из типов
- Скопируйте колонку features на страницу tmp
- Удалите повторяющиеся значения
- Вычислите сколько объектов каждого типа. Используйте формулу =countif(диапазон,значение) перевод =счётесли(диапазон,значение)
- Результат сохраните на своей wiki странице - пригодится для мини-обзора
- Скопируйте строки CDS на страницу proteins
- Выделите всю таблицу
- Выделите ТОЛЬКО строки CDS с помощью фильтра по features
- Скопируйте всё выделенное и вставьте на страницу proteins
- Поверните названия колонок на 90
- Проведите ревизию колонок. Удалите пустые колонки и колонки не несущие информации — значения одинаковы во всех строках.
Выделите таблицу protein-cds, установите фильтр на все колонки ( Data → Create filters)
- По очереди проверяйте все фильтры на все колонки, нажимая на треугольнички справа от каждого называния колонок. Смотрите какие и сколько значений в колонке. Например, в колонке features значения во всех строках CDS. Да, объекты отобраны по этому признаку и CDS есть в названии страницы. Удалите колонку features
- Note. Колонки product_accession и non-redundant_refseq обычно совпадают во всех строках. В обоих содержится идентификатор последовательности белка в базах последовательностей белков. Чтобы не делать лишней работы оставьте обе, но ориентируйтесь на product_accession. Помните, что теоретически очень редко могут быть отличия. Объясню почему: в базу данных non-redundant_refseq из белков со 100% идентичными последовательностями из разных штаммов включается ТОЛЬКО ОДНА. У не взятых в refseq идентификатор non-redundant_refseq как раз и указывает на взятую в refseq последовательность, даже если она из другого организма.
2. Загрузка файла с кодирующими последовательностями
Включаю для возможного использования в мини-обзоре
Нужный файл .. cds_from-genomic.fna скачивается с того же сайта вашей бактерии или археи, что файлы ...feature_table.txt и ...genomic.fna.gz. Его следует положить в ранее созданную вами папку genome