HBmedia Company

Tại sao xu hướng này dần được ưa chuộng?

CÓ THỂ BẠN QUAN TÂM

Thiết kế Website trọn gói 2,900,000đ

Quảng cáo Google

Quảng cáo Facebook

Chăm sóc Website

Chăm sóc Fanapge

Thiết kế Mobile App

Quảng cáo Tiktok

ELT là viết tắt của “extract, load & transform” (trích xuất, tải & chuyển đổi) – những quy trình mà một data pipeline (đường ống dữ liệu) sử dụng để sao chép dữ liệu từ hệ thống nguồn sang một hệ thống khác, ví dụ như kho dữ liệu đám mây.

Trước khi đi sâu vào tìm hiểu sự dịch chuyển của doanh nghiệp sang quy trình ELT, hãy cùng đi qua một số đặc điểm của quy trình ETL truyền thống nhé:

Quy trình ETL (Extract, Transform, Load)

Trong quy trình phân tích của bất kỳ doanh nghiệp nào, bước chuyên sâu nhất thường là chuẩn bị dữ liệu: bao gồm việc tổng hợp, làm sạch và tạo các tập dữ liệu để phục vụ cho hoạt động kinh doanh và quá trình ra quyết định. Quy trình này thường được biết đến với cái tên ETL (Extract, Transform, Load): trích xuất, chuyển đổi và tải dữ liệu.

Trong quá trình này, một công cụ ETL sẽ trích xuất dữ liệu từ các hệ thống nguồn khác nhau, chuyển đổi dữ liệu bằng cách áp dụng các phép tính, ghép nối,… và cuối cùng là tải dữ liệu vào kho dữ liệu.

Với hướng tiếp cận này, có 3 hoạt động chính:

  1. Bạn trích xuất dữ liệu từ các nguồn khác nhau (viết truy vấn trên cơ sở dữ liệu SQL hoặc gửi yêu cầu trích xuất dữ liệu đến một ứng dụng thông qua API của nó)
  2. Những dữ liệu này sau đó sẽ được chuyển đổi trong bộ nhớ của công cụ ETL
  3. Dữ liệu đã chuyển đổi sẽ được tải vào kho lưu trữ/kho dữ liệu cuối cùng

Điểm mấu chốt cần lưu ý là dữ liệu thô được chuyển đổi bên ngoài kho dữ liệu, thường có sự hỗ trợ của một dàn máy chủ (staging server) chuyên dụng; và chỉ những dữ liệu đã chuyển đổi mới được tải vào kho dữ liệu.

Quy trình ELT (Extract, Load, Transform)

ELT là một hướng tiếp cận khác. Thay vì chuyển đổi dữ liệu trước khi chúng được tải vào cơ sở dữ liệu, ELT thực hiện quá trình chuyển đổi bên trong kho dữ liệu. Dữ liệu của bạn sẽ được tải vào kho dữ liệu, sau đó mới đến bước chuyển đổi.

3 hoạt động chính trong quá trình ELT:

  1. Bạn trích xuất dữ liệu từ các nguồn
  2. Thay vì chuyển đổi trong bộ nhớ, bạn sẽ tải dữ liệu thô trực tiếp vào kho dữ liệu
  3. Cuối cùng, bạn thực hiện bất cứ chuyển đổi cần thiết nào trong chính kho dữ liệu

Điểm quan trọng cần lưu ý ở đây là dữ liệu thô được chuyển đổi bên trong khu dữ liệu mà không cần đến dàn máy chủ; và kho dữ liệu của bạn bây giờ chứa cả dữ liệu thô và dữ liệu đã được chuyển đổi.

Sự chuyển đổi từ ETL sang ELT

Trước đây, việc xây dựng một kho dữ liệu là rất tốn kém, cả về phần cứng và phần mềm. Chi phí server, chi phí triển khai và giấy phép phần mềm cho một dự án lưu trữ dữ liệu vào khoảng 20-30 năm trước có thể lên đến hàng triệu USD và tốn nhiều tháng trời để thực hiện.

Ở bối cảnh này, mô hình ETL là hoàn toàn hợp lý: dữ liệu thô đã được chuyển đổi cẩn thận trong máy chủ dàn (hoặc một công cụ ETL) trước khi được tải vào kho dữ liệu. Khối lượng dữ liệu mà các công cụ khi ấy có thể xử lý là tương đối nhỏ, do đó máy chủ không gặp khó khăn trong quản lý.

Tuy nhiên, ở thời điểm hiện tại, ETL lại có một số hạn chế như sau:

Điều gì đã xảy ra? Dưới đây là một vài yếu tố đã xuất hiện trong những thập niên 2010s và từ đó hình thành lên một hướng tiếp cận mới:

Mọi người nhận ra rằng với chi phí lưu trữ và xử lý dữ liệu thấp như hiện nay, họ hoàn toàn có thể đổ tất cả dữ liệu vào một chỗ, trước khi thực hiện bất cứ chuyển đổi nào.

Và đó là lý do ELT ngày càng trở nên phổ biến hơn. Đối lập với ETL, ELT sở hữu những lợi thế sau:

Dưới đây là bảng tổng hợp những khác biệt chính giữa ETL & ELT:

ETL ELT
Lịch sử – Kho dữ liệu rất tốn kém (hàng triệu USD), khối lượng dữ liệu ở mức quản lý được
– Mô hình thác nước (waterfall development) vẫn đang thông dụng
– Kho dữ liệu đám mây làm giảm đáng kể chi phí lưu trữ & xử lý dữ liệu (chỉ còn hàng trăm/hàng nghìn USD)
– Khối lượng dữ liệu bùng nổ- Các phương pháp tinh gọn & linh hoạt xuất hiện
Quy trình Dữ liệu thô được chuyển đổi ở dàn máy chủ. Chỉ những dữ liệu đã chuyển đổi mới được tải vào kho dữ liệu. Các quá trình chuyển đổi phụ thuộc vào công suất xử lý của máy chủ. Dữ liệu thô được tải vào kho dữ liệu. Việc chuyển đổi dữ liệu được thực hiện bên trong kho dữ liệu. Kết quả cũng được lưu trữ trong kho dữ liệu. Các quá trình chuyển đổi phụ thuộc vào công suất xử lý của kho dữ liệu.
Ưu điểm/Hạn chế Kho dữ liệu chỉ chứa dữ liệu đã được làm sạch và chuyển đổi, từ đó doanh nghiệp có thể tối ưu hoá công dụng của kho dữ liệu. Tuy nhiên không hiệu quả khi khối lượng dữ liệu lớn. Thường mất hàng tuần, hàng tháng để thay đổi quy trình do áp dụng mô hình thác nước. Tất cả dữ liệu được lưu trữ ở kho dữ liệu đám mây, từ đó rất dễ để thay đổi kho dữ liệu mới. Không cần đến các dàn máy chủ bổ trợ. Vẫn hoạt động tốt khi khối lượng dữ liệu tăng lên. Chỉ mất vài ngày để chuyển đổi /thiết lập dữ liệu mới.

Tạm kết

Quy trình nào cũng hướng tới mục đích cuối cùng là tận dụng tốt nguồn dữ liệu dồi dào để tạo lợi thế cạnh tranh cho doanh nghiệp. Dữ liệu khi được khai thác triệt để sẽ giúp bạn dễ dàng nắm bắt tình hình hiện tại, đưa ra dự báo cho tương lai và luôn trong tâm thế đi trước một bước so với sự biến động của thị trường.

CÔNG TY TNHH HBMEDIA - HBMEDIA CO.,LTD
Trụ sở: 242/8D Bà Hom -Phường 13, Quận 6 - Hồ Chí Minh
VPĐD : 151/67D Liên khu 4-5, Bình Hưng Hòa B, Bình Tân, Tp.HCM
Tư vấn dịch vụ : 0933 576 079
Từ 8h00 – 18h00 các ngày từ thứ 2 đến thứ 7