В настоящее время Azure – это единственный провайдер, предлагающий бескомпромиссное решение для облачного хранилища, отвечающего требованиям к безопасности, масштабируемости, способного успешно справляться с большими нагрузками. 7 февраля 2019 г разработчики объявили об общей доступности ADLS Gen2.
Особенности работы
ADLS – единственная облачная служба хранения, специально созданная для анализа больших объемов данных. Она предназначена для интеграции с широким спектром сред, что максимизирует производительность благодаря семантике файловой системы. Также хранилище масштабируется в соответствии с потребностями пользователя, рассчитывается по ставкам хранения облачных объектов.
Платформа включает такие службы:
- HDInsight и Azure Databricks для обработки сведений;
- Azure Data Factory для ввода данных и управления ними;
- хранилище SQL Azure;
- Azure Analysis Services и Power BI для использования данных по шаблону, Modern Data Warehouse.
Также система интегрируется с ADLS, что позволяет создавать решения, отвечающие потребностям пользователя.
Д. Ричардс, соучредитель и генеральный директор WANdisco, утверждает, что с помощью Azure Data Lake Storage Gen2 получилось создать привлекательное решение LiveData для гибридной аналитики с предоставлением легкого доступа к службам данных Azure без каких-либо простоев или сбоев.
Высокая производительность и масштабируемость
Производительность – важнейший фактор, определяющий рабочие нагрузки для анализа больших массивов данных. Чем она выше, тем меньше затрачивается вычислительных ресурсов, что дает возможность существенно снизить затраты.
Для этого используется пространство имен (HNS), которое позволяет службе хранения упорядочивать данные как файловую систему с иерархией каталогов. Все аналитические структуры (например, Spark, Hive) построены с упором на то, что базовый сервис хранения построен на иерархии систем, о чем свидетельствует запись во временные каталоги, которые переименовываются по завершении задания. Для традиционных облачных объектов это сложная операция, существенно влияющая на производительность. В ADLS это переименование является единственной атомарной операцией метаданных.
Второе решение, позволившее достичь высокого уровня производительности, – драйвер файловой системы Azure Blob (ABFS). Он выполняет такие функции:
- оптимизация входных и выходных нагрузок;
- максимизация пропускной способности;
- снижение затрат при обработке данных.
Драйвер ABFS входит в состав Apache Hadoop. Теперь он доступен в HDInsight и Azure Databricks, а также в других коммерческих дистрибутивах Hadoop.
Также стоит обратить внимание на масштабируемость. В идеале система должна меняться с той же скоростью, что и прирост данных. В Hadoop и Spark масштабирование проходит горизонтально, что означает возможность увеличения числа узлов в кластере по мере обработки. В ADLS достигается отсутствие ограничений на объем данных. Клиенты могут хранить сотни Тб информации, что дает возможность удовлетворить любые требования.
Высокий уровень безопасности
Защита данных – основополагающая задача для клиентов, располагающих их большим объемом.
Предусмотрены следующие механизмы безопасности:
- аутентификация пользователя;
- контроль доступа;
- шифрование данных;
- брандмауэры хранилища.
Благодаря этому любая информация будет защищена от постороннего вмешательства.