Tải bản đầy đủ - 0 (trang)
LỊCH SỬ PHÁT TRIỂN CỦA DATA WAREHOUSE

LỊCH SỬ PHÁT TRIỂN CỦA DATA WAREHOUSE

Tải bản đầy đủ - 0trang

tác nghiệp thường ngày chứ không phải được thiết kế ra với mục đích hỗ trợ

quyết định.





Thống nhất được dạng và cấu trúc dữ liệu phù hợp với yêu cầu của người dùng

cuối. Đối với các cơng ty có nhiều chi nhánh khác nhau thì có thể dữ liệu được

lưu trữ dưới các dạng khác nhau, ví dụ như cùng là đơn vị đo chiều dài nhưng có

nơi dùng đơn vị là cm, có nơi dùng đơn vị là inch, ... do vậy gây khó khăn cho

việc phân tích dữ liệu để hỗ trợ quyết định.







Quản trị dễ dàng. Sau khi được xây dựng, người quản trị có thể lên kế hoạch để

hệ thống vận hành tự động. Người quản trị chỉ có nhiệm vụ theo dõi, chỉnh sửa

và nâng cấp khi có u cầu hoặc sự cố.



Lợi ích của Data Warehouse đối với người dùng cuối và doanh nghiệp là khá rõ ràng.

Data warehouse đã được chứng minh là công nghệ mang lại hiệu quả đầu tư cao. Một

nghiên cứu của công ty Dữ liệu Quốc tế (IDC : International Data Corporation) trên 62

Data Warehouse cho biết tỉ lệ hiệu quả đầu tư trung bình cho Data Warehouse là 321% và

kết quả thu được có thể thấy sau một vài năm.

Lý thuyết hoàn chỉnh về Data Warehouse được ra đời vào năm 1992 với sự xuất bản cuốn

sách "Building the data warehouse" của W. H. Inmon và Inmon được coi là cha đẻ của

Data Warehouse. Tuy nhiên trước đó Data Warehouse hay một phần của nó đã xuất hiện

dưới dạng này hay dạng khác.

Giữa thập kỉ 90 của thế kỉ 20, Data Warehouse đã trở thành một trong những từ thông

dụng nhất được sử dụng trong công nghiệp máy tính. Tuy nhiên cần phải nhấn mạnh rằng

Data Warehouse khơng thể phát triển theo hướng của các nhà sản xuất, trái lại nó phải

được phát triển bởi các cơng ty nhằm thỏa mãn nhu cầu kinh doanh của các công ty đó.

Vì vậy, Data Warehouse khơng phải là một sản phẩm hàng loạt, nó khơng phải được sản

xuất ra một lần rồi đem bán hay áp dụng cho nhiều đơn vị khác nhau. Data Warehouse là

một sản phẩm đơn chiếc, nó được sáng tạo một lần và được phát triển liên tục theo thời

gian nhằm đáp ứng đầy đủ những nhu cầu của người sử dụng. Nó chỉ thích hợp cho một

đơn vị và phải bám sát đặc điểm kinh doanh hay sản xuất của đơn vị đó.

Phần tiếp theo sẽ mô tả từng bước phát triển của ngành công nghệ thông tin theo chiều

hướng tiến đến sự ra đời của Data Warehouse.



8



1.1.



THỜI KÌ TIỀN SỬ - TRƯỚC NĂM 1980 :



Thời kì trước những năm giữa thập kỉ 70 được coi là thời kì của các máy tính. Sự phát

triển của các máy vi tính (sau này được gọi là PC) và của các phần mềm đã giúp cho

người dùng cuối có thể thao tác, điều khiển trực tiếp với dữ liệu của họ.

Một trong những cột mốc quan trọng của giai đoạn này là sự ra đời của công nghệ dữ liệu

quan hệ vào đầu thập kỉ 70 của Boyce/Codd. Theo sau nó là sự ra đời của hàng loạt các

sản phẩm, cơng cụ quản lí và giao tiếp với cơ sở dữ liệu quan hệ. Đặc biệt sự ra đời của

ngơn ngữ truy vấn dữ liệu có cấu trúc (SQL : Structured Query Language) rất gần gũi với

con người đã cho phép người dùng cuối có thể thao tác với dữ liệu quan hệ một cách dễ

dàng, vì vậy nó được chuẩn hóa và sử dụng rất rộng rãi. Hiện nay tất cả các hãng sản xuất

phần mềm quản trị dữ liệu đều hỗ trợ ngôn ngữ này.

Cho tới giữa những năm 70, do sự phức tạp của phần cứng và phần mềm máy tính ngày

càng tăng, vì vậy số người dùng cuối có khả năng thao tác, điều khiển trực tiếp dữ liệu

ngày càng giảm. Lúc này, họ cần phải tìm kiếm một chuyên gia xử lý dữ liệu (data

processing expert) có thể thao tác với dữ liệu để cung cấp cho họ những thông tin cần

thiết giúp họ ra quyết định. Những chuyên gia xử lý dữ liệu này, vì đòi hỏi của cơng việc,

phải tập trung tồn bộ tâm trí và sức lực vào việc nắm bắt kĩ thuật thao tác với máy tính

và dữ liệu. Điều này có nghĩa là đã có một khoảng cách khá lớn giữa người dùng cuối và

kĩ thuật lấy thông tin mà họ cần.

Khoảng giữa thập kỉ 80, khoảng cách này đã giảm đi một cách đáng kể. Người dùng cuối

vừa có khả năng kinh doanh vừa có thể tự mình khai thác dữ liệu. Điều này được thực

hiện bởi sự đơn giản hóa các kĩ thuật xử lý dữ liệu. Thời kì này máy tính cá nhân (PC :

Personal Computer) cũng phát triển mạnh mẽ và được sử dụng rộng rãi, nhờ nó mà cơng

nghệ thơng tin đã đạt được một bước tiến dài.

1.2.



THỜI KÌ TRUNG ĐẠI - TỪ GIỮA NHỮNG NĂM 80 ĐẾN CUỐI

NHỮNG NĂM 80:



Nếu thời kì trước đặc trưng bởi những sự đổi mới về công nghệ dẫn tới sự ra đời của

người dùng cuối thì tới thời kì này được coi là thời kì của những người dùng cuối. Người

dùng cuối càng phát triển thì nhu cầu của người dùng cuối lại càng cao và càng phong

phú. Những kiến trúc dữ liệu trước đây trở nên không thể đáp ứng nổi với nhu cầu của

9



người dùng cuối trong việc hỗ trợ ra quyết định, vì vậy đã dẫn tới sự tiến triển lên một

giai đoạn tiếp theo của cơng nghệ dữ liệu, đó là sự ra đời của data warehouse ứng dụng

cho từng công ty riêng rẽ.

Khi người dùng cuối cần có những thơng tin tồn cảnh về cơng ty thì một trong những

vấn đề khó khăn nhất là tích hợp các phần dữ liệu lại với nhau. Do các phần dữ liệu này

mang tính độc lập với nhau khá cao nên khơng thể tích hợp chúng một cách dễ dàng. Vì

vậy các dữ liệu cần phải được tiền xử lý trước khi tích hợp lại.

Data warehouse lần đầu tiên được nhắc tới trong giai đoạn những năm 1984 tới 1988. Nó

có sự tiến triển khác nhau trong các công ty. Các bước tiến quan trọng của data

warehouse diễn ra khi người ta hiểu được tầm quan trọng của kiến trúc dữ liệu khi phải

cung cấp dữ liệu tới người dùng cuối. Các công ty nhận ra sù quan trọng của việc mơ

hình hóa dữ liệu và xây dựng giao diện với người dùng cuối.Tuy nhiên trong thời kì này

vẫn tồn tại nhiều sự hiểu sai về khái niệm Data Warehouse và những những lợi ích mà

Data Warehouse đem lại cũng như quy mơ của các công ty nên triển khai Data

Warehouse. Cùng với thời gian, những sự nhầm lẫn này cũng dần dần được xóa bỏ. Cho

tới cuối thời kì này, những cơng ty đã thử nghiệm Data Warehouse nhận ra rằng Data

Warehouse chính là chìa khóa phát triển và mở rộng ứng dụng cho người dùng cuối, vì

vậy họ tiếp tục tìm kiếm những cách thức để triển khai Data Warehouse dựa trên nền tảng

lý thuyết đã có.

Cuối thời kì này cũng đánh dấu sự định nghĩa về kiến trúc Data Warehouse lần đầu tiên

xuất hiện rộng rãi. Một trong những bài báo đầu tiên đã mô tả về kiến trúc của Data

Warehouse là bài báo của Devlin và Murphy vào năm 1988. Bài báo này trình bày các

cơng việc được thực hiện để thiết kế Data Warehouse cho công ty IBM châu Âu. Sau này

IBM vẫn được coi là công ty đầu tiên đưa ra khái niệm Data Warehouse.

Đặc biệt thời kì này người ta cũng đã phân biệt được rõ ràng hệ thống tác nghiệp và hệ

thống thông tin. Hệ thống tác nghiệp là hệ thống phục vụ cho công việc kinh doanh hàng

ngày, vì vậy nó cần có phản ứng gần như tức thì đối với các yêu cầu kinh doanh, các sự

kiện trong hệ thống thường có phạm vi ảnh hưởng nhỏ. Hệ thống tác nghiệp được cấu

trúc tối ưu sao cho nó có thể đạt được tốc độ nhanh nhất, nó thường được sử dụng bởi

những người dùng phải giao tiếp với khách hàng, sản phẩm, ... Trong khi đó, các đặc

điểm của hệ thống thơng tin lại khác hẳn : nã được sử dụng để quản lí và điều khiển cơng

việc kinh doanh, nó được coi là các "ảnh chụp" liên tiếp tình trạng kinh doanh của cơng

10



ty, do đó nó cho ta thấy tình trạng của công ty tại từng thời điểm hay trong một thời kì.

Hệ thống thơng tin được kiến trúc tối ưu cho việc trả lời các câu hỏi chứ không phải cho

việc cập nhật dữ liệu, các yêu cầu đối với hệ thống thơng tin là rất rộng và khó đốn

trước, nó được sử dụng bởi các nhà quản lý và người dùng cuối như là một phương tiện

cung cấp cho họ những thông tin cần thiết trong việc hỗ trợ ra quyết định.

1.3.



CUỘC CÁCH MẠNG DỮ LIỆU - NHỮNG NĂM ĐẦU THẬP KỈ 90



Đến đầu những năm 90 thì máy tính cá nhân đã trở thành cơng cụ khơng thể thiếu được

trong các doanh nghiệp. Giá rẻ và được chuẩn hóa tốt đã giúp cho chúng chiếm lĩnh được

thị trường cơng nghệ thơng tin. Nhờ đó mà các sản phẩm chạy trên PC cũng được phát

triển mạnh mẽ. Thời kì này hệ thống dữ liệu quan hệ chiếm lĩnh toàn bộ thị trường nhờ

được chuẩn hóa cao và cấu trúc chặt chẽ. Tuy nhiên nó cũng vấp phải một vần đề khó

khăn, đó là tốc độ truy vấn khơng cao khi có một câu hỏi ở mức tổng thể đòi hỏi phải

duyệt qua nhiều bảng mới trả lời được.

Nhờ những thành cơng bước đầu trong q trình triển khai Data Warehouse ở giai đoạn

trước, những người quản lý hệ thống thông tin đã cố gắng thuyết phục người dùng tin

tưởng vào những lợi nhuận và cơ hội mà Data Warehouse sẽ mang lại cho họ trong tương

lai.

Sự chấp nhận Data Warehouse chỉ lan rộng trong cộng đồng doanh nghiệp khi mà họ

nhận ra rằng họ cần phải có một cái nhìn tổng quan hơn về doanh nghiệp và nhiều khi

điều đó là rất có giá trị. Họ nhìn thấy được khả năng tiềm tàng trong việc khai thác những

dữ liệu đã có hơn là chỉ thao tác và cập nhật dữ liệu. Khi khai thác những kho dữ liệu

khổng lồ, họ có thể lấy được những thơng tin đáng giá phục vụ cho việc marketing hoặc

tăng sức cạnh tranh.

Cũng vào đầu thời kì này, chính những biến động to lớn về chính trị và kinh tế khiến

nhiều doanh nghiệp thấy cần phải có một sự thay đổi mạnh mẽ trong việc kinh doanh để

có thể tăng cường cạnh tranh. Ví dụ như trong ngành công nghiệp hàng không, việc cạnh

tranh giữa các doanh nghiệp ngày càng quyết liệt. Một trong những hãng hàng không đạt

được thành công là nhờ những thay đổi đáng kể trong chiến dịch marketing. Họ đã cố

gắng tìm ra sự liên hệ giữa những khách hàng thường xuyên của hãng với dữ liệu về vé

mà hãng đang có để đề ra một chiến dịch marketing mới. Kết quả tìm kiếm cho thấy

những khách hàng thường xuyên nhất là những doanh nhân, những người thường ngồi

khoang hạng nhất, đặt vé muộn và muốn có được sự linh hoạt cao. Sự liên kết dữ liệu về

11



những người thường xuyên đi máy bay của hãng với dữ liệu của hệ thống bán vé đã cho

ra đời một chiến dịch marketing mới và rất có hiệu quả nhằm vào tầng líp doanh nhân,

điều này khơng những làm cho hãng có được một số lượng lớn khách hàng trung thành

mà còn giúp cho hãng thu hót thêm được nhiều khách hàng mới.

Ví dụ trên cho thấy những nhu cầu kinh doanh mới đã dẫn tới cuộc cách mạng dữ liệu.

Các doanh nghiệp cần một cái nhìn mới để hiểu được cơng ty hoạt động như thế nào mét cái nhìn có thể bao quát được những khía cạnh kinh doanh riêng lẻ trước đây, và để

đáp ứng được điều này thì cơng nghệ dữ liệu cũng cần phải có những thay đổi phù hợp.

Có thể nói sự phát triển về cơng nghệ dữ liệu trong thời kì này là sự phát triển về nhận

thức. Mặc dù tăng trưởng về số lượng là khơng nhiều, trong thời kì này mơ hình dữ liệu

quan hệ vẫn phát triển mạnh mẽ, nhưng nhận thức về data warehouse đã thay đổi theo

hướng tiếp cận với người dùng. Nó tạo ra mét xu thế phát triển mới là lấy người dùng

làm trung tâm thay vì lấy yêu cầu của công việc làm trung tâm như trước kia. Mục đích

xây dựng hệ thống Data Warehouse cũng trở nên rõ ràng, đó là hướng vào kinh doanh.

Data Warehouse đã được chọn lựa để trở thành công cụ cung cấp thông tin kinh doanh và

phục vụ công cuộc chiếm lĩnh thị trường của các doanh nghiệp.



KỈ NGUYÊN CỦA QUẢN LÝ DÙA TRÊN THÔNG TIN - TỚI

NHỮNG NĂM CỦA THẾ KỈ 21



1.4.



Trong suốt thập kỉ 80 đến nửa đầu thập kỉ 90, lý thuyết và việc triển khai data warehouse

được thực hiện tương đối chậm chạp vì vẫn còn tồn tại nhiều định nghĩa khác nhau về

data warehouse. Tuy nhiên những định nghĩa này cũng có một số điểm chung về những

nhu cầu trong kinh doanh cũng như những hướng mà kĩ thuật cần phải hỗ trợ trong việc

triển khai data warehouse, và mặc dù xuất hiện vào đầu những năm 80 nhưng cho tới giê

thì chúng vẫn được nhìn nhận là những yếu tố cơ bản trong lý thuyết xây dựng data

warehouse.

Mét trong những chiều hướng kinh doanh trong tương lai sẽ là quản lý dùa vào thông tin,

điều đó có nghĩa là những thơng tin hỗ trợ quyết định sẽ được chuyển tải tới người dùng

cuối. Quá trình này có thể được thể hiện như sau :





Một nguồn thơng tin duy nhất : dữ liệu cần tích hợp có thể tới từ rất nhiều

nguồn, cả từ trong và ngồi cơng ty và tồn tại dưới rất nhiều dạng, từ loại dữ liệu

có cấu trúc truyền thống tới loại dữ liệu phi cấu trúc như văn bản hay phim ảnh.



12



Trước khi được đưa tới người dùng cuối, chúng cần được làm sạch và thống

nhất để đảm bảo chất lượng và tính tồn vẹn.





Phân phối thơng tin : việc quản lý dùa vào thông tin không chỉ là công việc của

bộ phận đầu não của cơng ty mà nó còn là cơng việc của rất nhiều bộ phận khác.

Ví dụ một cơng ty có nhiều chi nhánh ở các vùng địa lý khác nhau thì các chi

nhánh này cũng cần có thơng tin để quản lý.







Thơng tin trong ngữ cảnh kinh doanh : người dùng chỉ có thể hiểu và sử dụng

thông tin một cách hữu Ých khi mà thông tin được đặt trong ngữ cảnh của các

hoạt động kinh doanh của người dùng. Vì vậy các định nghĩa dữ liệu cung cấp

bởi các chuyên gia kinh doanh trở thành các quy chuẩn và cần phải có một bộ

phận thơng tin chứa các định nghĩa này.







Phân phối thơng tin tự động : khi dữ liệu chuyển thành thông tin và luân chuyển

trong hoặc giữa các tổ chức với nhau thì các công cụ phân phối tự động trở nên

cần thiết. Sự tự động khơng chỉ đòi hỏi tiến trình phân phối phải tự động mà còn

đòi hỏi cả những định nghĩa về các yêu cầu luân chuyển và chuyển dạng dữ liệu.







Quyền sở hữu và chất lượng thơng tin : thơng tin là tài sản sống còn của các

cơng ty, và giống như các tài sản khác, nó cần được quản lý và bảo vệ. Chất

lượng của nó phải được đảm bảo. Quyền sở hữu thông tin là điều kiện tiên quyết

để nhận ra giá trị của thông tin.



1.5.



KẾT LUẬN



Tới đây, ta có thể hiểu về Data warehouse được định nghĩa như sau : "Data Warehouse

đơn giản là một kho dữ liệu đơn nhất, hoàn chỉnh, thống nhất được tạo thành từ nhiều

nguồn dữ liệu khác nhau có thể cung cấp thông tin cho người dùng cuối theo cách mà họ

có thể hiểu và sử dụng được trong ngữ cảnh kinh doanh của họ".

Lịch sử phát triển của Data Warehouse nói riêng và của ngành cơng nghệ thơng tin nói

chung gắn liền với sự phát triển của công nghệ phần cứng. Cho dù có những lúc hướng đi

của ngành bị chi phối bởi cơng nghệ mới và cũng có khi lại phải chạy theo đòi hỏi của

người dùng cuối nhưng bằng cách này hay cách khác thì cái đích cuối cùng của sự phát

triển vẫn là sử dụng những thành quả của kĩ thuật để mang lại lợi ích cho người sử dụng

cho dù họ là nhà cung cấp sản phẩm hay những người dùng cuối. Đó chính là lý do khiến

13



Data Warehouse không thể chỉ nằm trong công nghệ thơng tin hay trong lĩnh vực kinh tế.

Nó phải trở thành một cơng nghệ đem lại lợi ích cho cả người sử dụng cuối và người tạo

ra nó. Có như vậy Data Warehouse mới có thể tồn tại và phát triển.

Qua thời gian, theo chiều phát triển của lịch sử, công việc của các chuyên gia công nghệ

thông tin cũng dần thay đổi. Từ chỗ cơng việc chính của họ là tự động hóa và giản tiện

các cơng việc hàng ngày dần dần đã chuyển sang quản lí và phát triển các hệ thống đó.

Sự dịch chuyển này chính là tiền đề phát triển của Data Warehouse.



CHƯƠNG 2



NHỮNG KHÁI NIỆM VỀ DATA WAREHOUSE

Ở chương trước, học viên đã biết được rằng những nhu cầu của người dùng cuối kết hợp

với sự phát triển của công nghệ dẫn tới sự ra đời của Data Warehouse và ta cũng đã hiểu

được định nghĩa thế nào là Data Warehouse.

Chương này học viên sẽ đi sâu và giới thiệu kĩ hơn về Data warehouse, đồng thời chương

này cũng sẽ nêu lên kiến trúc tổng quát của một Data Warehouse giúp cho học viên có thể

hình dung rõ ràng hơn về nó.



2.1. DATA WAREHOUSE LÀ GÌ ?

Data Warehouse là một cơ sở dữ liệu được thiết kế để đáp ứng với nhu cầu trả lời câu hỏi

và phân tích chứ khơng phải để xử lý các giao dịch hàng ngày như cơ sở dữ liệu tác

nghiệp. Nó thường chứa các dữ liệu có tính lịch sử bắt nguồn từ dữ liệu tác nghiệp,

nhưng nó cũng có thể chứa dữ liệu từ các nguồn khác nữa. Nó giúp cơng ty tách việc

phân tích ra khỏi các giao dịch hàng ngày.

Sau đây là 4 đặc tính cơ bản của Data Warehouse được nêu bởi William Inmon :

a)



Hướng chủ đề



Data Warehouse được thiết kế để giúp chúng ta phân tích dữ liệu nhằm trả lời các câu hỏi

của người dùng cuối. Mặt khác, những câu hỏi của người dùng cuối lại có thể phân loại

được theo một số chủ đề nào đó. Ví dụ người dùng cuối có thể đặt các câu hỏi như :

14



"Khách hàng có độ tuổi nào mua nhiều bảo hiểm nhất trong năm nay ?", "Công ty con

nào bán được nhiều bảo hiểm nhất trong tháng này ?" hay "Mặt hàng bảo hiểm nào được

ưa chuộng nhất trong quý vừa rồi ?" để tìm hiểu rõ tình trạng bán bảo hiểm của cơng ty.

Để trả lời những câu hỏi này, một Data Warehouse tập trung vào chủ đề hợp đồng bảo

hiểm sẽ được xây dựng. Tương tự như vậy, Data Warehouse hướng vào các chủ đề khác

cũng sẽ được hình thành.

b)



Tích hợp



Data Warehouse được xây dựng từ nhiều nguồn dữ liệu khác nhau, các nguồn dữ liệu này

có sự xung đột với nhau về tên trường, giá trị thể hiện, đơn vị đo lường, ... Ví dụ như

cùng biểu diễn trường địa chỉ nhưng có cơ sở dữ liệu sử dụng tên trường là "Địa chỉ"

trong khi cơ sở dữ liệu khác lại dùng là "Nơi ở". Ngoài ra các cơ sở dữ liệu cũng có thể

có giá trị thể hiện khác nhau, ví dụ để biểu diễn giới tính của khách hàng, cơng ty con này

dùng giá trị là 0 và 1, trong khi công ty con khác lại dùng giá trị là "M" và "W". Ngồi ra

cũng còn phải kể đến sự sử dụng đơn vị đo lường khác nhau cũng dẫn tới việc khó thống

nhất các cơ sở dữ liệu lại với nhau. Tóm lại, khi giải quyết được tất cả những sự xung đột

dữ liệu này để dữ liệu có thể chuyển vào Data Warehouse theo một định dạng duy nhất, ta

nói rằng chúng đã được tích hợp.

c)



Khơng thay đổi



Đặc tính này có ý nghĩa là khi dữ liệu đã được cập nhật vào Data Warehouse rồi thì dữ

liệu khơng nên thay đổi nữa. Điều này cũng logic vì mục đích của Data Warehouse là cho

phép bạn phân tích những gì đã xảy ra.

d)



Thời biến



Để phát hiện ra xu hướng kinh doanh, các nhà phân tích cần một khối lượng dữ liệu cực

kì lớn, điều này trái ngược hẳn với hệ thống xử lý giao dịch trực tuyến, nơi mà tốc độ xử

lý được đặt lên quan trọng hàng đầu còn thơng tin lịch sử thì khơng được coi trọng. Thời

biến ở đây có ý nghĩa là Data Warehouse phản ánh được sự thay đổi kinh doanh theo thời

gian.

15



Sự mâu thuẫn cơ bản trong một hệ thống thông tin là mâu thuẫn giữa các ứng dụng

hướng dữ liệu để thực hiện công việc kinh doanh và những ứng dụng để quản lí chúng.

Mơi trường hỗ trợ quyết định ln mâu thuẫn với hệ tác nghiệp trên nhiều mặt. Đầu tiên

phải kể đến là vấn đề tốc độ. Để đạt được tốc độ cao cho cả hai hệ thống cần phải tách

biệt chúng ra. Data Warehouse đã làm như vậy. Bằng cách xây dựng Data Warehouse thì

doanh nghiệp đã có hai hệ cơ sở dữ liệu tách biệt nhau là hệ cơ sở dữ liệu tác nghiệp và

Data Warehouse.

Cách thức tốt nhất để lưu trữ dữ liệu lại không phải là cách tối ưu để hiển thị chúng.

Chính vì vậy, cấu trúc của dữ liệu trong Data Warehouse được hướng vào phục vụ người

dùng tạo ra một phương thức dễ hình dung nhất để hiển thị dữ liệu. Mục đích của việc

xây dựng Data Warehouse là tạo thuận lợi tối đa khi xem xét dữ liệu với mục đích phân

tích kinh doanh và ra quyết định thay vì mục tiêu kĩ thuật. Nói chung Data Warehouse

được xây dựng là để phục vụ kinh doanh và hướng vào kinh doanh.

Bởi vì Data Warehouse cung cấp dữ liệu để xem xét lịch sử cũng như triển vọng phát

triển nên nó tìm cách thể hiện và lưu trữ trạng thái tình hình kinh doanh trong một

khoảng thời gian dài. Điều này mang lại cho những nhà kinh doanh lợi Ých to lớn cho

phép họ phân tích xu hướng và triển vọng kinh doanh.



2.2. KIẾN TRÚC CỦA DATA WAREHOUSE

2.2.1. KIẾN TRÚC CƠ BẢN :



16



Kiến trúc cơ bản của Data Warehouse rất đơn giản. Nó dùa trên ý tưởng là xây dựng một

kho dữ liệu thống nhất từ nhiều nguồn dữ liệu khác nhau để phục vụ truy vấn.

Kiến trúc Data Warehouse gồm 3 lớp chính :





Lớp dữ liệu nguồn (Data Sources) : Dữ liệu được đưa vào data warehouse từ rất

nhiều nguồn khác nhau. Điều này thể hiện đặc tính tích hợp của Data

Warehouse. Trên hình vẽ ta thấy dữ liệu nguồn có thể là dữ liệu có sẵn trong hệ

thống tác nghiệp của doanh nghiệp và cũng có thể là dữ liệu lấy từ nguồn bên

ngồi doanh nghiệp. Dữ liệu có thể là loại có cấu trúc chặt chẽ như dữ liệu quan

hệ đã được chuẩn hóa hay có thể là loại phi cấu trúc như các văn bản thơng

thường.







Lớp Warehouse : Lớp này chứa đựng dữ liệu đã được tổng hợp cùng siêu dữ liệu

mơ tả chúng cũng như các tiến trình tổng hợp, phân bổ dữ liệu. Hai thành phần

quan trọng nhất của lớp Warehouse là dữ liệu và siêu dữ liệu. Chúng phải được

lưu giữ và mô tả nhất quán về nội dung (ý nghĩa dữ liệu) cũng như hình thức

(khn dạng dữ liệu). Để tăng tốc cho việc đáp ứng trả lời truy vấn thì dữ liệu

trong Data Warehouse thường được để sẵn dưới dạng tổng kết.







Lớp ứng dụng : có nhiệm vụ tương tác với người dùng cuối. Một trong những

đặc điểm quan trọng của Data Warehouse là cung cấp thông tin cho rất nhiều

người sử dụng với những u cầu khơng thể dự đốn trước, vì vậy nhìn chung

lớp người dùng có cấu trúc phức tạp. Hơn nữa, người dùng ở đây có thể sử dụng

nhiều cơng cụ khai thác và truy xuất dữ liệu khác nhau nên giao diện giữa lớp

Warehouse và người dùng cũng đa dạng.



Do tính đa dạng của lớp ứng dụng và lớp người dùng nên chúng không thể giao tiếp với

Data Warehouse theo các giao diện chuẩn mà thường cần phải có những công cụ được

thiết kế đặc biệt chuyên thực hiện công việc này. Dữ liệu khi được đưa vào hoặc đưa ra

khái Data Warehouse đòi hỏi phải có những tiến trình xử lý phức tạp. Các ứng dụng đảm

nhiệm công việc này thường tạo ra các kho trung gian và phải thực thi nhiều bước

chuyển tiếp.

Có hai tiến trình xử lý chính gồm :



17







Tập hợp dữ liệu đưa vào Warehouse : ngồi việc đọc hiểu các cấu trúc dữ liệu,

tiến trình này còn phải thực hiện nhiều chức năng khác để bảo đảm tính nhất

qn của dữ liệu trong warehouse.







Phân bổ dữ liệu đến người dùng cuối : có nhiều cơng cụ để thực hiện việc này,

nhưng nói chung là dữ liệu thường được tiền xử lý trước rồi sau đó mới hiển thị

tới người dùng cuối.



Như vậy ta thấy được kiến trúc cơ bản của Data Warehouse là khá đơn giản, tuy nhiên

việc xây dựng nó cũng đã khá khó khăn. Sau đây ta sẽ xem xét thêm kiến trúc của Data

Warehouse khi có thêm lớp Data mart và bước đệm xử lý.

2.2.2. KIẾN TRÚC DATA WAREHOUSE CÓ THÊM LỚP DATA MART VÀ BƯỚC ĐỆM

XỬ LÝ



Nhìn tổng thể kiến trúc mới của Data Warehouse cũng gồm 3 lớp chính như kiến trúc cơ

bản.



Việc thêm vào lớp Data mart và bước đệm xử lý cũng không làm mất đi cấu trúc 3 lớp

ban đầu.

Mơ hình cũng chỉ rõ cơng việc cần thực hiện trong hai tiến trình chính : tập hợp dữ liệu

và phân bổ dữ liệu.

Phần sau sẽ phân tích các lớp và tiến trình trong kiến trúc Data Warehouse.



18



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

LỊCH SỬ PHÁT TRIỂN CỦA DATA WAREHOUSE

Tải bản đầy đủ ngay(0 tr)

×