Разработчики объявили о том, что теперь пользователям доступны Azure Data Lake Storage Gen2, Azure Data Explorer и предварительный просмотр Azure Data Factory Mapping Data Flow. Благодаря этим обновлениям Azure продолжает оставаться лучшим облаком для аналитики с оптимальным соотношением «цена-качество» и безопасностью.
Azure Data Lake Storage
Azure Data Lake Storage (ADLS) сочетает в себе такие характеристики:
- высокая масштабируемость;
- высокопроизводительная файловая система;
- соответствие современным требованиям к безопасности.
Благодаря такому сочетанию пропадает необходимость выбирать между производительностью и экономической выгодой.
При создании системы одним из ключевых приоритетов стало обеспечение совместимости ADLS с Apache. Это сделалось возможным благодаря разработке драйвера Azure Blob (ABFS). ABFS официально стал частью Apache Hadoop и Spark и был добавлен во многие коммерческие дистрибутивы. Он определяет схему URI, что позволяет быстро открывать файлы и папки с помощью команды ABFS [s]: //file_system@account_name.dfs.core.windows.net/ <путь> / <путь> / <имя файла>.
Нужно отметить, что семантика файловой системы реализована на стороне сервера. Такой подход устраняет необходимость в установке сложного клиентского драйвера и обеспечивает высокую точность транзакций.
Для дальнейшего повышения производительности аналитики разработчики внедрили иерархическое пространство имен (HNS), которое поддерживает элементарные операции с файлами и папками. Это уменьшает расходы, связанные с обработкой больших баз данных в хранилище двоичных объектов, что ускоряет выполнение задания и снижает стоимость благодаря меньшему числу выполняемых операций.
Сочетание ABFS и HNS улучшает производительность ADLS. Теперь оно доступно по той же низкой цене, что и хранилище BLOB-объектов Azure.
Безопасность ADLS
ADLS предлагает такие функции защиты данных, встроенные в хранилище BLOB-объектов Azure:
- шифрование данных при передаче с помощью TLS 1.2;
- брандмауэры учетных записей хранения;
- виртуальная сетевая интеграция;
- ролевая защита доступа.
Также файловая система ADLS обеспечивает поддержку списков управления доступом (ACL), совместимых с POSIX. При таком подходе достигается комплексная зашита. Кроме того, ADLS поддерживается глобальной сетью независимых поставщиков аналитических данных и системных интеграторов, в том числе Clouder и Hortonworks.
Azure Data Explorer
Azure Data Explorer (ADX) – это удобный и быстрый, полностью управляемый сервис анализа данных, проводимого в реальном времени (1 млрд записей за секунду без необходимости изменения). ADX с интуитивно понятным языком также включает в себя хранилища данных SQL Azure и Power BI, а также собственные соединители для хранилища озера данных Azure.
Разработанная для скорости и простоты система имеет 2 различных сервиса, которые работают в тандеме:
- Engine. Отвечает за обработку входящих данных и обслуживание пользовательских запросов, используя сочетание автоматического масштабирования и разделения для достижения скорости и масштаба.
- Data Management (DM). Принимает необработанные данные и, при необходимости, управляет задачами противодействия появлению сбоев, противодавления и очистки данных. Сервис также позволяет быстро получать сведения с помощью уникального метода автоматической индексации и сжатия.
Обе службы развертываются как кластеры вычислительных узлов (виртуальных машин) в Azure.
Azure Data Factory Mapping Data Flow
Azure Data Factory (ADF) – это гибридная облачная служба интеграции данных для организации и автоматизации их перемещения и преобразования. Система предоставляет более 80 встроенных соединителей для структурированных, полуструктурированных и неструктурированных источников.
Благодаря ADF клиенты могут визуально проектировать, создавать и управлять процессами преобразования данных, не изучая Spark, не имея глубокого понимания распределения инфраструктуры.
Отображение потока данных сочетает в себе простой язык с интерактивным отладчиком для легкого и понятного выполнения, запуска и мониторинга заданий ETL, процессов интеграции.