Có lẽ chúng ta đang nói nhiều hơn về algaecide và không phải clo, nhưng về mặt vi sinh, một hồ dữ liệu thường trở nên khá nhiều mây và vô tổ chức ngay sau khi được mở để sử dụng. Lời hứa về lược đồ đọc của Hadoop thu hút nhiều người nhưng thường kết thúc việc đánh giá lại các nguyên tắc của một người liên quan đến quản lý dữ liệu - không đề cập đến một chiến lược mới (và chi phí) để làm sạch hồ dữ liệu đầm lầy.

May mắn thay, các giải pháp quản lý dữ liệu cho Hadoop mới chỉ bắt đầu đi vào hoạt động của riêng họ. Giống như Linux với tư cách là một hệ điều hành, các gói cần thiết cho Hadoop với tư cách là một hệ điều hành dữ liệu trên mạng, bắt đầu được tinh chỉnh bởi các nhà cung cấp Hadoop. Tuy nhiên, tất cả các sản phẩm điểm này có thể tạo ra quá tải công nghệ cho người tiêu dùng. Những trở ngại ban đầu để tạo ra các hồ dữ liệu cấp sản xuất với các sản phẩm điểm thường bao gồm quản lý nhập vào các công nghệ khác nhau trong ngăn xếp Hadoop, bảo mật hệ thống tệp Hadoop cơ bản và quản lý vòng đời dữ liệu và dữ liệu.

Chìa khóa ở đây - clo của bạn - là tự động hóa. Tự động hóa các quy trình chính bao gồm nhập dữ liệu, quản lý siêu dữ liệu, bảo mật và quản lý vòng đời dữ liệu sẽ giúp giữ cho hồ dữ liệu của bạn sạch sẽ. Để giúp phát triển sự hiểu biết về từng yếu tố của tự động hóa hồ dữ liệu, hãy điều tra từng chủ đề sâu hơn.

Quản lý nuốt phải

Sử dụng Hadoop buộc phải sử dụng hỗn hợp các công nghệ. Không có gì lạ khi đi qua bốn hoặc năm dự án Apache và các yêu cầu lập trình liên quan của chúng để cho phép một trường hợp sử dụng duy nhất trong Hadoop. Việc tích hợp các công nghệ khác nhau này đòi hỏi phải sử dụng nhiều giao diện, từ dòng lệnh đến các dịch vụ web cụ thể cho từng công nghệ. Lập trình nhập dữ liệu để hạn chế phơi nhiễm và giữ dữ liệu riêng tư và an toàn trong khi cho phép chức năng kỹ thuật sâu là một hành động cân bằng tốt. Để làm điều đó, việc nhập phải được tự động hóa - và tự động đến mức không cần phải can thiệp thủ công.

Quản lý nhập không chỉ là tổ chức quá trình di chuyển dữ liệu mà còn về vị trí dữ liệu. Dữ liệu được hạ cánh ở đâu khi được đưa vào Hadoop? Tổ chức cơ bản của hệ thống tệp của bạn thành các vùng có lẽ là điều dễ dàng nhất để giúp tách lúa mì ra khỏi vỏ. Một số dữ liệu chỉ cần thoáng qua. Một số dữ liệu sẽ luôn cần được lưu cho các mục đích quy định. Có các khu vực trong hệ thống tệp được dành riêng cho nhiều mục đích sử dụng giúp hợp lý hóa việc nhập dữ liệu và truy cập dữ liệu sau khi nhập. Giữ các tệp tạm thời trong một vùng thô, ví dụ, cô lập một cách hợp lý dữ liệu sao chép đơn (yếu tố sao chép) khỏi dữ liệu sản xuất. Ý tưởng sử dụng hộp cát cũng cho phép chức năng quan trọng nhất của hồ dữ liệu không phải điều tra các bộ dữ liệu do các nhà khoa học dữ liệu khám phá và tạo ra các phân tích ngày mai dựa trên tổng số kiến ​​thức về nhu cầu kinh doanh của họ. Việc sử dụng kết hợp các vùng và nhập dữ liệu tự động là bước đầu tiên trong việc hydrat hóa hồ dữ liệu nhưng an ninh của hồ thường là vấn đề được tranh luận nhiều nhất.

Quản lý siêu dữ liệu

Điều rất quan trọng để biết những gì trong hồ dữ liệu của bạn. Khi dữ liệu của bạn phát triển, thật khó để theo dõi bao nhiêu, bao nhiêu hoặc thậm chí thành công của mỗi nguồn dữ liệu trong một quy trình có thể bao gồm hàng trăm hoặc hàng ngàn nguồn.

Tuy nhiên, gắn thẻ dữ liệu khi nó chảy vào chỉ là một nửa của phương trình. Bạn cũng phải có khả năng tìm kiếm và tìm các bộ dữ liệu và có khả năng đánh giá chất lượng của từng quy trình.

Các gói như Apache Atlas, dựa trên HBase và Solr, hiện được bao gồm trong bản phân phối Hortonworks đang bắt đầu cung cấp dịch vụ Siêu dữ liệu cho Hadoop. Đối với các tổ chức lớn hơn, các gói nguồn đóng khác tồn tại thường cung cấp một số quyền truy cập RESTful. Bất kể nơi nào bạn giữ siêu dữ liệu, nó hoàn toàn cần phải được tổ chức và tìm kiếm. Không làm như vậy sẽ là điều rắc rối nhất tạo ra loài tảo nở hoa trên hồ dữ liệu của bạn.

Hadoop Bảo mật và bảo mật dữ liệu

Khi còn ở giai đoạn đầu, Hadoop thực sự không an toàn lắm. Không cần thiết vì mục đích ban đầu của nó không dành cho doanh nghiệp. Khi nó trưởng thành, các tính năng bảo mật phổ biến cho kiến ​​trúc CNTT doanh nghiệp hiện đại bắt đầu xâm nhập vào các kiến ​​trúc Hadoop. Sự trưởng thành của hệ thống tệp bao gồm các công nghệ như ACL tuân thủ POSIX  trong HDFS và  ACL và ACE  theo cách nói của MapR, đã cung cấp các biểu thức trưởng thành hơn về quyền của tệp làm nền tảng của bảo mật Hadoop. Sự trưởng thành này cho phép quá trình cơ bản tạo vùng dữ liệu hồ. Các bộ thư mục được tổ chức với các quyền và chính sách phù hợp cung cấp năng lượng cho các vùng đó cùng với công nghệ phân phối bổ sung.

Các công nghệ như Apache Ranger và Sentry là chìa khóa để thực hiện đặc quyền tối thiểu trong Hadoop. Quan trọng hơn, các ý tưởng về mã hóa khi nghỉ ngơi và các biện pháp bảo mật dữ liệu khác như mã thông báo và mặt nạ rất quan trọng để cung cấp sự cân bằng của quyền truy cập phù hợp mà không gây gánh nặng quá mức cho người dùng. Một số giải pháp tích hợp các biện pháp như mã thông báo vào quy trình nhập dữ liệu dưới dạng tùy chọn cấu hình, trong khi ở các giải pháp khác, nó vẫn là một ngoại lệ đặc biệt.

Lưu ý rằng có một số công cụ Hadoop như Apache Falcon hoặc Cloudera Navigator giúp quản lý quản trị dữ liệu, nhưng chúng dựa vào các sản phẩm của bên thứ ba cho một số chức năng nhất định như mã hóa và mã thông báo.

Quản lý vòng đời dữ liệu

Một tính năng mới tuyệt vời trong HDFS, nhờ  HDFS-2832 , được gọi là  Lưu trữ lưu trữ . Một nút dữ liệu duy nhất hiện có nhiều tùy chọn lưu trữ. Tính năng này cũng có thể được sử dụng để triển khai các vùng nhiệt độ để quản lý dữ liệu, bao gồm cả việc đặt dữ liệu vào các khu vực cụ thể trong cụm của bạn dựa trên tuổi hoặc loại lưu trữ của nó. Sự chuyển động của dữ liệu, được tự động hóa dựa trên các chính sách dành riêng cho tổ chức của bạn, là cốt lõi của Quản lý vòng đời dữ liệu. Nhiều lần dữ liệu được truy cập thường xuyên hơn khi mới được nhập. Trong một số trường hợp, thật hữu ích khi đặt dữ liệu đó vào bộ nhớ để truy cập nhanh nhất.

Khi tuổi của dữ liệu tăng lên, việc chuyển sang một nút có CPU và lưu trữ trạng thái rắn có ý nghĩa hơn. Khi tuổi của dữ liệu tăng thêm, có thể có ý nghĩa để di chuyển dữ liệu đến các nút chậm hơn với quay vòng cổ điển nhưng cuối cùng là đĩa rẻ hơn và một số nút lưu trữ. Một lần nữa, việc sử dụng các chính sách để kiểm soát hỗ trợ lưu trữ dữ liệu trong việc tối ưu hóa chuyển động dữ liệu trong hồ của bạn. Giống như một đài phun nước ao, sự di chuyển tự động của dữ liệu sẽ giữ cho dữ liệu quan trọng mới.

Đừng chờ đợi, tự động hóa

Tự động hóa là chìa khóa để làm việc ở quy mô dữ liệu lớn. Tất cả những điều cần cân nhắc này là rất cần thiết đối với việc hydrat hóa trực tiếp và tạo ra một hồ dữ liệu có hiệu quả và cuối cùng là không có tảo. Hãy nhớ rằng quan điểm của một hồ dữ liệu là làm việc với Hadoop, hay còn gọi là dữ liệu lớn, ở quy mô. Tận dụng tự động hóa giúp quản trị viên và người dùng tập trung vào kết quả và phân tích, chứ không phải quản trị. Sử dụng các quy trình như nhập dữ liệu được quản lý như một phần của quy trình tự động hóa của bạn cho phép tính nhất quán của quy trình trên hồ dữ liệu. Bảo mật dữ liệu có thể xứng đáng với toàn bộ loạt blog nhưng có thể nói rằng việc giữ dữ liệu  riêng tư và bảo mật khỏi các mối đe dọa bên ngoài trong khi thực thi khái niệm đặc quyền tối thiểu trong một tổ chức là tối quan trọng đối với tất cả các chủ đề được thảo luận ở trên. Trong khi tất cả các tổ chức có các yêu cầu duy nhất trong việc thực hiện, vẫn có sự phổ biến trong kiến ​​trúc.