[Mini-Series] Chuẩn bị dữ liệu cho thuật toán Machine Learning • Ở bài viết trước, chúng ta đã thử tìm hiểu những điều mà dữ liệu muốn thể hiện. Phần này sẽ giúp chúng ta học cách chuẩn bị dữ liệu trước khi đẩy chúng vào thuật toán.

  Đã tới lúc để chuẩn bị dữ liệu cho thuật toán Machine Learning của bạn. Thay vì làm nó bằng tay, hãy viết một vài hàm để tự động hóa quy trình này. Những lý do để làm điều này bao gồm:

  • Nó sẽ cho phép bạn lặp lại những biến đổi một cách dễ dàng trên bất kỳ một tập dữ liệu nào khác (ví dụ vào lần sau bạn sẽ có một tập dữ liệu mới).
  • Bạn có thể tự xây dựng một thư viện chứa các phép biến hình dữ liệu, mà bạn có thể sẽ tái sử dụng nó trong tương lai.
  • Bạn có thể sử dụng những hàm này trong các live system, nơi mà các dữ liệu được cập nhật liên tục.
  • Nó sẽ cho phép bạn dễ dàng thử các phép biến hình khác nhau và quyết định xem tổ hợp các phép biến hình nào là tốt nhất.

  Thế nhưng đầu tiên chúng ta cần một tập dữ liệu sạch. Do đó, hãy tạo ra một bản sao của strat_train_set một lần nữa, tiếp theo hãy tách riêng labels với các thuộc tính còn lại do chúng ta sẽ không cần thiết phải áp dụng các phép biến hình trên cả training set. (lưu ý rằng phương thức drop() sẽ tạo ra một data frame mới, nó không ảnh hưởng tới strat_train_set):

  housing = strat_train_set.drop("median_house_value",axis = 1)
  housing_labels = strat_train_set['median_house_value'].copy()
  

  Dọn dẹp dữ liệu

  Hầu hết các thuật toán Machine Learning sẽ không thể làm việc với các dữ liệu bị thiếu. Do đó hãy tạo ra một vài phương thức để lo liệu chuyện này. Như đã thấy trước đó, thuộc tính total_bedrooms có một vài giá trị bị thiếu, chúng ta sẽ sửa nó. Khi đối mặt với vấn đề này, bạn có 3 lựa chọn:

  • Xóa các quận mà giá trị total_bedrooms bị thiếu.
  • Xóa luôn cả thuộc tính này trên toàn bộ data set.
  • Điền các giá trị thiếu bằng một vài giá trị như 0, trung bình cộng, median, ...etc...
  housing.dropna(subset=["total_bedrooms"]) #tùy chọn 1
  housing.drop("total_bedrooms", axis = 1) #tùy chọn 2
  median = housing.['total_bedrooms'].median()
  housing["total_bedrooms"].fillna(median) #tùy chọn 3
  

  Nếu như bạn chọn phương án thứ 3, đừng quên lưu lại giá trị median mà bạn vừa tính, bạn sẽ cần tới nó để fill các giá trị trống trong test set khi bạn muốn đánh giá hệ thông của mình. Khi hệ thống được đưa vào chạy, nó cũng có thể được sử dụng để điền các giá trị trống của dữ liệu mới.

  Thư viện Scikit-Learn cung cấp một lớp hiệu quả để chúng ta giải quyết các giá trị thiếu : Imputer. Đây là cách để sử dụng nó, đầu tiên, hãy tạo ra một instance của lớp này. Nói với nó rằng bạn muốn thay thế các giá trị trống bằng giá trị median của thuộc tính tương ứng:

  from sklearn.preprocessing import Imputer
  imputer = Imputer(stratery = 'median')
  

  Do giá trị median chỉ có thể được tính ra trên các thuộc tính số học, chúng ta cần tạo mới một bản sao dữ liệu mới mà không có thuộc tính text ocean_proximity:

  housing_num = housing.drop('ocean_proximity', axis = 1)
  

  Bây giờ bạn có thể sử dụng phương thức fit() của lớp Imputer để tính toán các giá trị median của các cột trong tập dữ liệu trên:

  imputer.fit(housing_num)
  

  Các giá trị được tính sẽ được lưu tại instance member imputer.statistics_. Ở đây mặc dù chỉ có thuộc tính total_bedrooms là bị khuyết một vài giá trị, nhưng chúng ta không đảm bảo được rằng các dữ liệu mới trong tương lai có bị khuyết dữ liệu ở những thuộc tính khác hay không. Do đó, an toàn hơn cả là tính toán median của mọi cột có thể.

  Screenshot-2018-1-19Hands-OnMachineLearningwithScikit-LearnandTensorFlowConceptsToolsandTechniquestoBuildIn....png

  Bây giờ thì bạn có thể sử dụng đối tượng imputer mà chúng ta tạo ra phía trên, để transform tập training bằng cách đặt các giá trị median vào các cell bị thiếu:

  X = imputer.transform(housing_num)
  

  Kết quả của câu lệnh trên sẽ trả về một mảng Numpy chứa các features đã được biến hình. Nếu bạn muốn biến nó trở lại thành một Pandas's DataFrame, đơn giản thôi:

  housing_tr = pd.DataFrame(X, columns = housing_num.columns)
  

  Thiết kế của Scikit-Learn

  API của thư viện Scikit Learn được thiết kế rất tốt. Các quy luật thiết kế chính bao gồm:

  Consistency - Tính nhất quán:

  Tất cả các đối tượng chia sẻ một interface nhất quán và đơn giản, được liệt kê dưới đây.

  • Estimators: Bất kỳ object nào mà có thể ước lượng một vài tham số dựa trên một tập dữ liệu cho trước được gọi là một Estimator. imputer mà chúng ta khai báo phía trên chính là một Estimator. Sự ước lượng được triển khai thông qua lời gọi tới phương thức fit(), và nó chỉ cần 1 tập dữ liệu làm tham số (hoặc 2 cho các thuật toán học có hướng dẫn, tham số thứ 2 là các labels). Những tham số khác dùng để hướng dẫn, điều hướng quá trình ước lượng được gọi là các hyper-parameters , ở đoạn code phía trên , strategy chính là một hyper-parameter. Các hyper-parameters phải được cài đặt là các instance variable.
  • Transformers: Một vài Estimators giống như Imputer cũng có thể được sử dụng để biến dạng một dataset. Chúng được gọi là các bộ biến hình - Transformers. Một lần nữa, bạn lại có thể thấy được sự đơn gian trong API của nó. Sự biến hình được thực hiện thông qua lời gọi tới phương thức transform(), với dataset cần transform được truyền vào làm tham số. Lời gọi sẽ trả về tập dữ liệu đã được biến hình. Các phép biến hình chủ yếu dựa trên các tham số đã được ước lượng hoặc học được trước đó, giống như trong trường hợp của imputer vậy. Mọi Transformers cũng đều có một phương thức fit_transform(), tương tự với việc gọi fit() trước rồi sau đó là transform(). Đôi khi phương thức fit_transform() đã được tối ưu và có thể chạy nhanh hơn.
  • Predictors: Cuối cùng, một vài estimators có khả năng đưa ra các dự đoán trên một tập dữ liệu cho trước. Chúng được gọi là các Predictors. Ví dụ, mô hình Hồi quy tuyến tính - LinearRegression là một predictor. Các predictors đều có một phương thức là predict(). Nó lấy vào một instance dữ liệu mới làm tham số, và trả về các dataset chứa các dự đoán tương ứng. Các Predictors cũng có phương thức score() dùng để đo lường chất lượng của các dự đoán, nó nhận vào một test set làm tham số (và các label tương ứng nếu như bạn đang thao tác với các thuật toán học có hướng dẫn).

  Inspection - tính kiểm tra được

  Mọi hyper-parameters của các estimators có thể được kiểm tra trực tiếp thông qua việc truy cập các instance variable (eg: imputer.strategy). Các tham số đã ước lượng cũng truy cập được thông qua các instance variables, với ký tự underscore_ làm hậu tố. Ví dụ imputer.statistics_).

  Nonproliferation of classes

  Các tập dữ liệu được trình bày dưới dạng các mảng của thư viện Numpy hoặc các ma trận rời rạc SciPy, thay vì các homemade classes. Các hyper-parameters là các chuỗi chính quy trong Python, hoặc các con số.

  Composition - Tính phối cảnh

  Các building block được sử dụng lại nhiều nhất có thể. Ví dụ, bạn sẽ dễ dàng tạo ra được một Pipeline estimator từ một dãy tùy ý các transformer, theo sau cùng là một estimator.

  Sensible defaults - Tính hợp lý của các giá trị mặc định

  Scikit-Learn cung cấp các giá trị mặc định hợp lý cho hầu hết các tham số, khiến cho bạn dễ dàng tạo ra các hệ thống làm việc cơ bản một cách nhanh chóng.

  Xử lý text và các thuộc tính text

  Ở những section trước, chúng ta mới loại bỏ thuộc tính ocean_proximity bởi nó là một thuộc tính chữ, chúng ta không thể tính được median của nó. Hầu hết các thuật toán ML chỉ chấp thuận các giá trị đầu vào là số. Do đó, chúng ta hãy cùng chuyển đổi thuộc tính này sang các giá trị số học.
  Thư viện Scikit-Learn trình bày một transformer là LabelEncoder:

  from sklearn.preprocessing import LabelEncoder
  encoder = LabelEncoder()
  housing_cat = housing['ocean_proximity']
  housing_cat_encoded = encoder.fit_transform(housing_cat)
  housing_cat_encoded
  # output: array([1, 1, 4, ..., 1, 0, 3])
  

  Trông tốt hơn rồi đó. Bây giờ thì chúng ta có thể sử dụng những dữ liệu số học này trong việc huấn luyện thuật toán ML. Bạn sẽ thấy các mapping mà transformer này học được thông qua instance variable class_. (“<1H OCEAN” được map thành 0, “INLAND” được map thành 1, etc.):
  Screenshot-2018-1-21Hands-OnMachineLearningwithScikit-LearnandTensorFlowConceptsToolsandTechniquestoBuildIn....png

  Một vấn đề với cách trình bày này, đó là các thuật toán Machine Learning sẽ giả sử rằng các giá trị gần nhau hơn sẽ có tính giống nhau cao hơn (1 và 2 sẽ có sự giống nhau cao hơn 1 và 10). Trong trường hợp này thì hoàn toàn không phải, bạn có thể thấy rằng <1H OCEAN (0) sẽ giống với NEAR OCEAN(4) hơn là với INLAND (1).
  Để khắc phục vấn đề này, thì giải pháp phổ biến là tạo ra một thuộc tính nhị phân để biểu diễn các categories. Ví dụ , bit A sẽ là 1 và mọi bit khác là 0 nếu category tương ứng là <1H OCEAN. Bit B sẽ là 1 và mọi bit khác là 0 nếu category tương ứng là IN LAND, tương tự với các category khác. Cách biểu diễn này được gọi là one-hot encoding, bởi vì chỉ có một giá trị là 1(hot), trong khi mọi giá trị còn lại là 0(cold).

  Scikit-Learn cung cấp một lớp OneHotEncoder để chuyển đổi các giá trị integer thành các one-hot vectors. Chúng ta hãy chuyển đổi các giá trị categories thành các one-hot vectors. Lưu ý rằng phương thức fit_transform mong đợi tham số là một mảng 2D, nhưng housing_cat_encoded lại là một mảng 1D, do đó chúng ta cần phải tái định hình nó:

  from sklearn.preprocessing import OneHotEncoder
  encoder = OneHotEncoder()
  housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(1,-1))
  housing_cat_1hot
  
  #output : <16513x5 sparse matrix of type '<class 'numpy.float64'>'
  # with 16513 stored elements in Compressed Sparse Row format>
  

  Bạn thấy rằng kết quả đầu ra là một ma trận rời rạc (sparse matrix) của thư viện SciPy thay vì một mảng NumPy. Điều này cực kỳ hữu dụng nếu như bạn có một categorical attribute chứa cả ngàn categories. Sau quá trình one-hot encoding , chúng ta sẽ có một ma trận với hàng ngàn cột, mỗi row sẽ chỉ có duy nhất một giá trị 1, toàn bộ các cells khác sẽ là 0. Sử dụng một lượng lớn bộ nhớ như vậy chỉ để chứa toàn là 0 với 1 sẽ là một sự phung phí. Do đó một ma trận rời rạc sẽ chỉ lưu lại vị trí của giá trị 1 trong từng hàng mà thôi. Bạn có thể sử dụng nó giống như sử dụng một mảng 2D bình thường, nhưng nếu bạn muốn chuyển đổi nó thành một mảng NumPy dày đặc, chỉ cần gọi tới phương thức toarray():
  Screenshot-2018-1-23Hands-OnMachineLearningwithScikit-LearnandTensorFlowConceptsToolsandTechniquestoBuildIn....png

  Chúng ta có thể apply cả hai transformation(từ text tới integer, từ integer tới one-hot vector) trong một hành động bằng cách sử dụng lớp LabelBinarizer:
  Screenshot-2018-1-23Hands-OnMachineLearningwithScikit-LearnandTensorFlowConceptsToolsandTechniquestoBuildIn...1.png

  Tuy nhiên cách làm này mặc định sẽ trả về NumPy array, nếu bạn muốn một ma trận rời rạc, hãy thiết đặt tham số sparse_output=True trong contructor của lớp LabelBinarizer.

  Transformer tự tạo

  Mặc dù Scikit-Learn cung cấp khá nhiều các transformers hữu ích, bạn nên tự viết một cái cho riêng mình trong trường hợp bạn muốn thực hiện các hành động như dọn dẹp dữ liệu hoặc kết hợp các thuộc tính. Bạn sẽ muốn transformer mình viết hoạt động trơn tru với các chức năng của Scikit-Learn (pipelines chẳng hạn). Và vì Scikit-Learn dựa trên duck-typing (không phải do kế thừa), tất cả những gì bạn phải làm đó chính là triển khai 3 phương thức :
  fit(),transform()fit_transform(). Chúng ta có thể triển khai phương thức thứ 3 một cách dễ dàng thông qua việc thừa kế lớp TransformerMixin. Thêm nữa, nếu bạn thừa kế lớp BaseEstimator(nhớ là trong constructor không được có *args hoặc **kargs), bạn sẽ có thêm 2 phương thức get_params()set_params() sử dụng để điều chỉnh các hyper-parameters. Dưới đây sẽ mô tả cách tạo ra một transformer giúp thêm vào các combined attributes mà chúng ta đã thảo luận trước đó:

  from sklearn.base import BaseEstimator, TransformerMixin
  
  rooms_ix, bedrooms_ix, population_ix, household_ix = 3,4,5,6
  class CombinedAttributesAdder(BaseEstimator,TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True):
      self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
      return self #we have nothing to do here
    def transform(self,X,y=None):
      rooms_per_household = X[:, rooms_ix] / X[:,household_ix]
      population_per_household = X[:,population_ix]/ X[:,household_ix]
      if self.add_bedrooms_per_room:
        bedrooms_per_room = X[:,badrooms_ix] / X[:,rooms_ix]
        return np.c_[X,rooms_per_household,population_per_household,
        bedrooms_per_room]
      else:
        return np.c_[X,rooms_per_household,population_per_household]
  attr_adder = CombinedAttributesAdder(add_bedrooms_per_room = False)
  housing_extra_attr = attr_adder.transform(housing.values)
  

  Trong ví dụ trên transformer của chúng ta chỉ có duy nhất một hyper-parameter : add_bedrooms_per_room, được thiết đặt mặc định là True. Hyper-parameter này sẽ giúp bạn dễ dàng xác định xem liệu việc thêm vào một thuộc tính mới có giúp ích gì cho thuật toán ML hay không. Nhìn chung, bạn có thể thêm một hyper-parameter mới để switch(on/off) các bước chuẩn bị dữ liệu mà bạn không dám chắc 100%. Bạn càng tự động hóa các quy trình chuẩn bị dữ liệu, càng nhiều các tổ hợp dữ liệu khác nhau mà bạn có thể thử qua. Điều này giúp chúng ta nhanh chóng có được các tổ hợp dữ liệu tốt để đẩy vào thuật toán ML, tiết kiệm được rất nhiều thời gian.

  Features Scaling

  Một trong những phép biến hình quan trọng nhất mà lập trình viên cần phải làm với dữ liệu của anh ta là features scaling - điều chỉnh độ giãn cách của thuộc tính. Ngoại trừ một vài trường hợp, thì các thuật toán ML sẽ không hoạt động tốt nếu các thuộc tính trong dữ liệu có độ giãn cách quá khác nhau. Đây chính là trường hợp mà dự án của chúng ta mắc phải : trong khi total_rooms có dải giá trị từ 6 tới 39320, thì median_income chỉ có giá trị từ 0 tới 15. Lưu ý rằng thường bạn sẽ không phải điều chính độ giãn cách của labels - target attribute.

  Có hai cách phổ biến để làm cho các thuộc tính có được độ giãn cách như nhau : min-max scalingstandardization.

  Đối với min-max scaling (nhiều người gọi nó là normalization) thì khá đơn giản: Các giá trị được điều chỉnh sao cho dải giá trị của nó nằm gọn trong đoạn $[0;1]$. Chúng ta làm điều này bằng cách trừ các giá trị cho min, sau đó chia giá trị vừa tính được cho (max - min). Thư viện Scikit-Learn cung cấp lớp MinMaxScaler cho mục đích này. Nó có một hyper-parameter feature_range để bạn thay đổi dải giá trị mặc định từ $[0;1]$ sang một dải khác nếu muốn.

  Với standardization thì lại khá khác biệt. Nó làm cho dữ liệu của chúng ta có được cái gọi là phân phối chuẩn tắc - standard normal distribution. Trước tiên nó trừ các giá trị cho trung bình cộng của thuộc tính (nhờ đó mà thuộc tính sau khi được giãn cách sẽ có trung bình cộng là 0). Sau đó nó chia giá trị vừa tính được cho phương sai(bình phương độ lệch chuẩn) để thuộc tính cuối cùng có phương sai đơn vị: 1. Không giống với min-max scaling, standardization không điều chỉnh lại thuộc tính thành một dải giá trị cố định nào cả, điều này có thể sẽ gây vấn đề với một vài thuật toán (ví dụ : neural networks thường mong đợi các đầu vào có dải dữ liệu nằm trong $[0;1]$). Tuy nhiên, stardardization lại ít bị ảnh hưởng bởi ngoại lệ hơn. Ví dụ, giả sử rằng một quận có median_income = 100(do lỗi). Min-max scaling sẽ đánh sập các giá trị khác từ $[0;15]$ xuống còn $[0;0.15]$, trong khi đó standardization không bị ảnh hưởng quá nhiều. Scikit Learn cung cấp một lớp gọi là StandardScaler cho mục đích này.

  Cảnh báo!!!!

  Với cả hai phép biến hình nói trên, điều quan trọng cần nhớ là bạn chỉ nên áp dụng chúng đối với training data, không phải toàn bộ dataset(bao gồm test set). Sau đó bạn mới có thể sử dụng chúng để transform training set và test set(có thể là cả các dữ liệu mới).

  Transformation Pipelines

  Như bạn đã thấy, có rất nhiều các phép biến hình cần thực hiện theo một thứ tự đúng. May mắn là Scikit-Learn cung cấp cho chúng ta lớp Pipeline để thao tác với các chuỗi transformers đó. Dưới đây là một ví dụ nho nhỏ về một Pipeline dùng cho các thuộc tính số học:

  from sklearn.pipeline import Pipeline
  from sklearn.preprocessing import StandardScaler
  
  num_pipeline = Pipeline([
   ('imputer', Imputer(strategy='median')),
   ('attribs_adder', CombinedAttributesAdder()),
   ('std_scaler', StandardScaler())
  ])
  housing_num_tr = num_pipeline.fit_transform(housing_num)
  

  Constructor của lớp Pipeline nhận vào một danh sách các tuple dạng (name,estimator), danh sách đó sẽ định nghĩa một dãy các transformer được thực hiện tuần tự. Ngoại trừ phần tử cuối cùng là một estimator, tất cả các phần tử còn lại phải là các transformers (ví dụ : chúng phải có phương thức fit_transform()). Tên có thể là bất kỳ từ nào bạn muốn. Khi bạn gọi phương thức fit() của Pipeline, nó sẽ gọi fit_transform() trên mỗi một transformer, sau đó truyền kết quả của phép tính vừa rồi sang transformer tiếp theo. Tuy nhiên đối với estimator cuối cùng trong danh sách, nó sẽ chỉ gọi tới phương thức fit() mà thôi.

  Pipeline của chúng ta sẽ tạo ra các phương thức giống như estimator cuối cùng. Trong ví dụ này, estimator là StandardScaler - một transformers. Do đó Pipeline sẽ có phương thức transform() để áp dụng các phép biến hình lên dữ liệu một cách tuần tự. Ngoài ra nó cũng sẽ có phương thức fit_transform().

  Bây giờ bạn đã có một Pipeline cho các thuộc tính số học, tuy nhiên bạn cũng cần sử dụng LabelBinarizer trên các thuộc tính categorical. Làm cách nào để chúng ta có thể hợp nhất các phép biến hình này vào một Pipeline duy nhất ? Scikit-Learn cung cấp lớp FeatureUnion cho mục đích này. Bạn truyền vào một danh sách các transformer (hoặc là các pipeline). Khi bạn gọi tới phương thức FeatureUnion.transform(), nó sẽ gọi tới phương thức transform() của tất cả các transformers , chờ đợi output của chúng, sau đó nối các kết quả lại với nhau và trả về kết quả cuối cùng. (tất nhiên việc gọi tới FeatureUnion.fit() sẽ gọi tới phương thức fit() của tất cả các transformers). Một pipeline đầy đủ, xử lý cả dữ liệu số học và chữ sẽ giống như thế này:

  from sklearn.pipeline import FeatureUnion
  
  num_attribs = list(housing_num)
  cat_attribs = ["ocean_proximity"]
  
  num_pipeline = Pipeline([
   ('selector',DataFrameSelector(num_attribs)),
   ('imputer' ,Imputer(stategy = 'median')),
   ('attr_adder' ,CombinedAttributesAdder()),
   ('std_scaler', StandardScaler())
  ])
  
  cat_pipeline = Pipeline([
   ('selector',DataFrameSelector(cat_attribs)),
   ('label_binarizer', LabelBinarizer())
  ])
  
  full_pipeline = FeatureUnion([
   ('num_pipeline', num_pipeline),
   ('cat_pipeline', cat_pipeline)
  ])
  

  Bây giờ thì bạn có thể chạy toàn bộ Pipeline một cách đơn giản:

  housing_prepared = full_pipeline.fit_transform(housing)
  housing_prepared
  #output: 
  #array([[ 0.73225807, -0.67331551, 0.58426443, ..., 0.    ,
  #     0.    , 0.    ],
  #    [-0.99102923, 1.63234656, -0.92655887, ..., 0.    ,
  #     0.    , 0.    ],
  #    [...]
  housing_prepared.shape
  #output:(16513, 17) 
  

  Mỗi một pipeline con sẽ được khởi động với một DataFrameSelector transformer: Nó đơn giản chỉ transform dữ liệu bằng việc lựa chọn các thuộc tính mong muốn (số học hoặc categorical), drop phần còn lại và chuyển đổi từ Pandas's DataFrame sang NumPy Array. Scikit Learn không có một công cụ nào để xử lý các DataFrame của Pandas, do đó chúng ta cần viết một transformer đơn giản để xử lý việc này:

  from sklearn.base import BaseEstimator, TransformerMixin
  
  class DataFrameSelector(BaseEstimator,TransformerMixin):
    def __init__(self,attributes_name):
      self.attributes_name = attributes_name
    def fit(self, X, y = None):
      return self
    def transform(self,X):
      return X[self.attributes_name].values
  

  Ở bài viết sau, chúng ta sẽ lựa chọn một mô hình và huấn luyện nó.

  Nguồn: Kipalog


Hãy đăng nhập để trả lời
 

Có vẻ như bạn đã mất kết nối tới LaptrinhX, vui lòng đợi một lúc để chúng tôi thử kết nối lại.