Книга в кодировке ДНК

Ученые, которые смогли успешно закодировать книгу в формате ДНК-кода, считают, что очень скоро такая технология хранения данных станет дешевле, чем на обычных цифровых носителях.

Ученые впервые использовали метод ДНК-кодирования для записи содержимого целой книги. На сегодняшний день это самый большой объем данных, который хранится с использованием искусственного генетического материала. Книга содержит 53.000 слов и 11 фотографий. Исследователи утверждают, что затраты на технику ДНК-кодирования снижаются так быстро, что в течение ближайших 5-10 лет этот метод может стать дешевле, чем хранение информации в обычных цифровых устройствах. Дезоксирибонуклеиновая кислота, или ДНК, хранит генетические инструкции практически всех известных организмов, имеет внушительный потенциал для хранения данных. Один грамм такого носителя может вместить до 455 миллиардов гигабайт, содержимое более чем 100 млрд DVD-дисков, что делает его идеальным компактным носителем. Команда исследователей из Гарвардской медицинской школы во главе с профессором Джорджем Черчем (George Church) доказала, что технология хранения данных внутри цепочки ДНК, хотя и медленно, но все же приближается к области практического применения. Журнал Science сообщает, что 5,27 мегабит данных, которые они смогли записать внутри ДНК, более чем в 600 раз превышает самый большой набор данных, закодированных таким образом ранее. На запись ДНК-книги потребовалось несколько дней. "Это важный шаг в развитии архивного хранения данных, - пояснил соавтор проекта, доктор Шрирам Косури (Sriram Kosuri). - Время, необходимое для записи, постоянно сокращается".

ДНК имеет целый ряд преимуществ по сравнению с традиционными цифровыми носителями информации. Она легко копируется и может быть прочитана после тысяч лет хранения носителя в неидеальных условиях. В отличие от постоянно меняющихся электронных форматов хранения данных, таких как магнитные ленты и компакт-диски, основные методы чтения и записи информации ДНК стары как жизнь на Земле.

Исследователи, которые уже подали предварительную заявку, чтобы запатентовать свою идею, использовали оборудование и компоненты собственной разработки для демонстрации новой техники записи. Для обеспечения максимальной надежности метода и снижения затрат они избегали создания очень длинных последовательностей кода, так как это обходится гораздо дороже создания множества коротких цепочек ДНК. Данные разбивались на фрагменты, которые могут быть записаны компактно и надежно, а для облегчения поиска кода каждого раздела информация о фрагментах хранится в специальной адресной книге или каталоге.

Цифровые данные традиционно хранятся в виде двоичного кода: нулей и единиц. ДНК дает возможность использовать четыре "знака": A, C, G и T. Чтобы свести к минимуму ошибки, команда профессора Черча все же решила придерживаться двоичного кодирования, с "А" и "С", указывающих на нули, а "G" и "Т" представляли собой единицу. Искусственная последовательность ДНК была построена с помощью существующих методов, она состояла из строк символов A, C, T и G, последовательно кодирующих буквы книги. Команда разработала систему, в которой струйный принтер синтезирует короткие фрагменты цепочек ДНК на стеклянной пластинке. Каждый фрагмент ДНК также содержит цифровой адресный код, обозначающий его положение в исходном файле. Фрагменты впоследствии могут быть «прочитаны» с использованием стандартных методов, которые применяются для расшифровки последовательности древнейших образцов ДНК из археологического материала. А компьютер собирает исходный файл в правильном порядке, сверяясь с адресными кодами.

Книга - гипертекстовый документ, созданный в соавторстве с руководителем группы, была записана в формате ДНК вместе с изображениями, чтобы продемонстрировать универсальность этой среды хранения. ДНК является самой компактной системой хранения данных благодаря своей трехмерности. Другие носители информации, в том числе экспериментальные, такие как позиционирование отдельных атомов на поверхности, по существу, ограничиваются двумя измерениями.

Проводимые исследовательские работы не были связаны с живыми организмами, так как это могло привести к риску ненужных осложнений на уровне биологических функций клетки, а неиспользуемые части ДНК могли быть удалены или мутировать. "Если целью является только хранение информации, нет необходимости в использовании живых клеток", - сказал Косури.

Записанные таким образом данные не могут быть изменены, но учитывая перспективную доступную емкость хранения, это не является проблемой. Нельзя сказать, что тестирование новой системы записи полностью прошло без ошибок, но из пяти с лишним миллионов только десять бит были признаны неверными. В будущем, при развитии проекта, планируется реализация различных методов проверки на ошибки, в том числе записи нескольких копий одной информации.

По стоимости оборудование для ДНК-моделирования еще недостаточно конкурентоспособно, чтобы сделать его более-менее распространенным. Но эти затраты снижаются гораздо быстрее, чем у электронных аналогов. Например, уже становятся доступны портативные ДНК-секвенаторы, и авторы проекта полагают, что это должно значительно упростить системы хранения информации в ДНК. Косури считает, что революция ДНК-технологий продолжается: "Мы можем встретить определенные трудности и препятствия, но нет никаких серьезных причин, которые смогли бы остановить этот процесс".

Игорь Грень


Компьютерная газета. Статья была опубликована в номере 38 за 2012 год в рубрике технологии

©1997-2024 Компьютерная газета