Петабайт для масс: хранилище ДНК может появиться в виде картриджей к 2030 году
Потребности в хранении данных значительно опережают возможности хранения, которые стали возможны благодаря таким знакомым технологиям, как жесткие диски (HDD), твердотельные накопители (SSD) и линейные ленточные накопители (LTO), как с точки зрения емкости отдельных накопителей, так и места, занимаемого большими кластерами накопителей.
TechRadar Pro сообщила об усилиях по переносу центров обработки данных на Луну для решения проблемы физического пространства, но это все еще зависит от существующих технологий хранения данных и вызывает вопросы об экологических отходах в космосе.
Введите хранилище ДНК, средство кодирования данных в синтезированных нитях ДНК во время процесса записи и секвенирования ДНК для ее считывания. По сути, происходит перевод между основаниями ДНК A, C, G и T обратно в двоичный код.
Согласно недавним техническим документам, преимущества очевидны: около 9 ТБ закодированной ДНК может поместиться всего в 1 мм ^ 3 пространства.
Французский стартап Biomemory считает, что ДНК как хранилище, которое он считает перспективной технологией, не может появиться достаточно быстро. В настоящее время он оценивает, что к 2025 году человечество сгенерирует 175 000 000 000 000 000 000 000 байт данных (или 175 “зеттабайт”) данных.
TechRadar Pro имел возможность поговорить с Алексом Мурадяном, генеральным директором Biomemory client (и соруководителем недавних начальных инвестиций в компанию eureKARE в размере 5 миллионов евро), который рассказал нам об этом революционном скачке в хранении данных.
Чем ваша технология отличается от того, что делают другие (например, Catalog)?
Исследования в области хранения данных ДНК в основном проводятся в академических лабораториях, а стартапы выходят из этих лабораторий.
Эти исследовательские проекты в основном финансируются в США правительственными учреждениями, такими как IARPA и Агентство перспективных исследовательских проектов в области обороны (DARPA), в то время как финансирование в ЕС осуществляется за счет национальных и европейских грантов.
Во Франции недавно была профинансирована программа (PEPR MoleculArXiv), направленная на укрепление этой зарождающейся области. Microsoft и Twist Bioscience ведут исследования и разработки в этой области, и за последние несколько лет появилось несколько стартапов, разрабатывающих технологии хранения данных ДНК.
К ним относятся Catalog, Ansa Biotechnologies и Iridia в США, а также Helixworks, DNA Script и BioSistemika в Европе.
Хранилище ДНК до сих пор разрабатывалось с использованием химически или ферментативно синтезированных пулов олигонуклеотидов (коротких одноцепочечных последовательностей ДНК из <200 оснований).
Хотя эта методология подтвердила возможность хранения данных ДНК, зависимость от нефтехимии в отношении растворителей и дорогостоящих строительных блоков, воздействие на окружающую среду и высокая стоимость производства (1000 долл. / МБ) препятствуют их жизнеспособности в масштабе.
Биомемори полностью меняет существующую парадигму синтеза ДНК, которая сосредоточена на олигонуклеотидах (короткой одноцепочечной ДНК), чисто синтетической конструкции, ограниченной исследовательскими лабораториями и фармацевтической промышленностью.
Вместо этого мы используем естественную способность живых организмов манипулировать длинными двухцепочечными молекулами ДНК, такими как хромосомы или плазмиды, для создания масштабируемой и устойчивой технологии хранения ДНК.
Наша работа находится на ранней стадии, но мы уже конкурируем с химическим и ферментативным синтезом.
Не могли бы вы рассказать нам немного больше о Биомамори?
Biomemory была основана в июле 2021 года Стефаном Лемером (директор по исследованиям CNRS), Пьером Крозе (доцент Сорбоннского университета) и Эрфаном Арвани, ученым-компьютерщиком и успешным серийным предпринимателем.
Биомемори родилась в результате исследований Национального центра научных исследований (CNRS) Университета Сорбонны, где Стефан Лемер и его команда разработали новый метод хранения данных ДНК, который позже привел к нашей запатентованной технологии "ДНК-драйв".
Эта технология физически организует данные на длинных биосовместимых и биозащищенных двухцепочечных молекулах ДНК, предлагая надежное решение для хранения с неограниченной емкостью, которое может быть биологически скопировано по очень низкой цене.
Теперь Biomemory сосредоточится на миниатюризации, автоматизации и распараллеливании сквозного интегрированного и непрерывного микрофлюидного устройства для сборки ДНК с возможностью обращения к промежуточным рынкам.
Каковы самые большие препятствия, которые мешают ДНК быстрее выйти на рынок хранилищ?
Технология хранения ДНК по-прежнему является развивающейся областью исследований; первые значительные результаты были опубликованы в 2012 году. С тех пор были достигнуты успехи в алгоритмах кодирования и штрих-кодирования для обеспечения коррекции, прямого доступа и сжатия, однако существуют технологические проблемы, препятствующие превращению ДНК в жизнеспособное альтернативное решение для хранения данных.
Современные технологии хранения ДНК основаны на химически или ферментативно синтезированных пулах олигонуклеотидов (короткие одноцепочечные последовательности ДНК <200 оснований), которые как создаются, так и считываются in vitro.
Синтез ДНК осуществляется с использованием фосфорамидитной химии на основе ископаемого топлива. Это имеет несколько недостатков, поскольку 1) приводит к высокой частоте ошибок, препятствующих синтезу длинных фрагментов, 2) использует токсичные растворители, полученные из ископаемого топлива, в основном ацетонитрил, для последовательной сборки дорогостоящих строительных блоков (заблокированных нуклеотидов).
Миниатюризация и распараллеливание этого метода за последнее десятилетие снизили стоимость химического синтеза ДНК, что позволило разработать множество приложений в науках о жизни.
Для практического использования хранилища данных ДНК требуется синтез ДНК в гораздо больших масштабах, чем это возможно в настоящее время, за небольшую часть текущих затрат при минимизации частоты ошибок. Высокая стоимость современного хранения ДНК в олигонуклеотидах, превышающая 1000 ЕВРО за МБАЙТ, помешала реальному применению этой технологии для хранения больших объемов данных.
Недавно несколько академических групп и несколько компаний (таких как DNA Script, Ansa Biotechnologies и Molecular Assemblies) разработали методы на основе ферментов для замены фосфорамидитной химии.
Эти методы ферментативного синтеза ДНК, основанные на ферменте терминальной трансферазы (TdT), позволяют избежать использования органических растворителей на основе ископаемого топлива, позволяя синтезировать в водных растворах. В будущем это может позволить синтезировать более длинные фрагменты, чем химия фосфорамидита.
На данный момент ферментативный синтез ДНК все еще слишком медленный, чтобы быть практичным. Кроме того, стоимость остается высокой, особенно потому, что ферментативный синтез ДНК, подобно химическому синтезу, основан на заблокированных нуклеотидах, полученных из ископаемого топлива.
Эта высокая стоимость, которая сегодня даже выше, чем химия фосфорамидита, ограничивает применение ферментативного синтеза ДНК для хранения данных.
Другие стартапы (Catalog, HelixWorks, DATANA / Biosistemica) разработали методы хранения данных о ДНК с использованием библиотек олигонуклеотидов, которые ферментативно собираются в более длинные молекулы ДНК.
Хотя эти методы могли бы снизить стоимость хранения ДНК, они по-прежнему полагаются на дорогостоящую фосфорамидитную химию для синтеза своих строительных блоков и на ПЦР, которая подвержена ошибкам, для амплификации собранных молекул.
Есть ли шанс, что вы могли бы сообщить нам, чего ожидать в отношении производительности (чтение / запись) и цены? Вы ожидаете, что первые устройства будут автономными (например, как USB-накопитель) или с кассетами?
Наша технология имеет потенциал для расширения в ближайшем будущем до уровня затрат и скорости, совместимых с большими данными и потребностями центров обработки данных (17 долларов США / ТБ за 10 лет TCO при скорости 400 Мбит / с).
Что касается нашего устройства, наше видение на 2030 год заключается в разработке автономного устройства, размеры которого совместимы с современными инфраструктурами центров обработки данных и, в частности, с серверными стойками.
Это устройство будет принимать различные типы расходных материалов, таких как чернильные картриджи с ДНК, что обеспечит его функционирование и совместимость с другими устройствами в цепочке создания стоимости данных.
Один из ваших конкурентов начал увлекаться вычислениями ДНК. Планируете ли вы иметь что-то подобное, и если да (насколько отличается), если нет, то почему?
Biomemory была создана как чистый проигрыватель цифрового хранилища данных на основе ДНК. Действительно, наши технологии синтеза были разработаны для получения только биобезопасных последовательностей, которые кодируют цифровые данные и, следовательно, не могут быть “взломаны” для получения опасных нитей ДНК.
Несмотря на то, что наши технологии могут быть использованы для биологических вычислений, в настоящее время мы сосредоточены на решении экологических проблем, связанных с электронным хранением данных.
Мы стремимся предоставить устойчивое решение для хранения данных ДНК с нулевым или незначительным углеродным следом, поскольку мы считаем, что именно в этом случае технологии ДНК будут отвечать текущим потребностям человечества.