Tải bản đầy đủ - 0 (trang)
Hình 1. Phác thảo quá trình

Hình 1. Phác thảo quá trình

Tải bản đầy đủ - 0trang

4. Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình

xử lý

5. Khai phá dữ liệu (data mining): Là một trong các bước quan trọng nhất, trong đó sử

dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.

6. Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thơng

qua các độ đo nào đó.

7. Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu

diễn và thể hiện trực quan cho người dùng.

Hình ? - Các bước trong Data Mining & KDD

Các nguyên tắc khai phá dữ liệu đã được dùng nhiều năm, nhưng với sự ra đời của Big

Data (dữ liệu lớn) làm nó phổ biến hơn. Big data gây ra một sự bùng nổ về sử dụng nhiều

kỹ thuật khai phá dữ liệu hơn, một phần vì kích thước thơng tin lớn hơn rất nhiều và vì

thơng tin có xu hướng đa dạng và mở rộng hơn về chính bản chất và nội dung của nó. Với

các tập hợp dữ liệu lớn, để nhận được số liệu thống kê tương đối đơn giản và dễ dàng

trong hệ thống vẫn chưa đủ. Với 30 hoặc 40 triệu bản ghi thông tin khách hàng chi tiết,

việc biết rằng 2 triệu khách hàng trong số đó sống tại một địa điểm vẫn chưa đủ. Bạn

muốn biết liệu 2 triệu khách hàng đó có thuộc về một nhóm tuổi cụ thể khơng và bạn cũng

muốn biết thu nhập trung bình của họ để bạn có thể tập trung vào các nhu cầu của khách

hàng của mình tốt hơn.

1.3. CÁC CHỨC NĂNG VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu không phải là tất cả về các công cụ hay phần mềm cơ sở dữ liệu mà bạn

đang sử dụng. Bạn có thể thực hiện khai phá dữ liệu bằng các hệ thống cơ sở dữ liệu bình

thường và các công cụ đơn giản, bao gồm việc tạo và viết phần mềm riêng của bạn hoặc

sử dụng các gói phần mềm bán ngoài cửa hàng. Khai phá dữ liệu phức tạp được hưởng lợi

từ kinh nghiệm trong quá khứ và các thuật toán đã định nghĩa với phần mềm và các gói

phần mềm hiện có, với các cơng cụ nhất định để thu được một mối quan hệ hoặc uy tín lớn

hơn bằng các kỹ thuật khác nhau.

Ví dụ, IBM SPSS®, có nguồn gốc từ việc phân tích thống kê và khảo sát, có thể xây dựng

các mơ hình dự báo hiệu quả bằng cách xem xét các xu hướng trong quá khứ và xây dựng

các dự báo chính xác. IBM InfoSphere® Warehouse cung cấp thơng tin tìm nguồn cấp dữ

liệu, thông tin xử lý trước, thông tin khai phá và thơng tin phân tích trong một gói duy

nhất, để cho phép bạn lấy thông tin thẳng từ cơ sở dữ liệu nguồn đến đầu ra báo cáo cuối

cùng.

Gần đây các tập hợp dữ liệu rất lớn và việc xử lý dữ liệu theo cụm và quy mơ lớn có thể

cho phép khai phá dữ liệu để sắp xếp và lập báo cáo về các nhóm và các mối tương quan

của dữ liệu phức tạp hơn. Bây giờ đã có sẵn rất nhiều cơng cụ và hệ thống hồn tồn mới,

gồm các hệ thống lưu trữ và xử lý dữ liệu kết hợp.



Bạn có thể khai phá dữ liệu với nhiều tập hợp dữ liệu khác nhau, gồm các cơ sở dữ liệu

SQL truyền thống, dữ liệu văn bản thô, các kho khóa/giá trị và các cơ sở dữ liệu tài liệu.

Các cơ sở dữ liệu có phân cụm, như Hadoop, Cassandra, CouchDB và Couchbase Server,

lưu trữ và cung cấp quyền truy cập vào dữ liệu theo cách không phù hợp với cấu trúc bảng

truyền thống.

Đặc biệt, định dạng lưu trữ cơ sở dữ liệu tài liệu linh hoạt hơn lại gây ra một trọng tâm và

sự phức tạp khác về xử lý thông tin. Các cơ sở dữ liệu SQL áp đặt các cấu trúc chặt chẽ và

cứng nhắc vào lược đồ, làm cho việc truy vấn chúng và phân tích dữ liệu trở nên đơn giản

theo quan điểm hiểu rõ định dạng và cấu trúc thông tin.

Các cơ sở dữ liệu tài liệu, có một tiêu chuẩn chẳng hạn như cấu trúc thực thi JSON hoặc

các tệp có cấu trúc đọc được bằng máy tính nào đó, cũng dễ xử lý hơn, mặc dù chúng có

thể làm tăng thêm sự phức tạp do cấu trúc khác nhau và hay thay đổi. Ví dụ, với việc xử lý

dữ liệu hồn tồn thơ của Hadoop, có thể phức tạp để nhận biết và trích ra nội dung trước

khi bạn bắt đầu xử lý và tương quan với nó.

Data Mining được chia nhỏ thành một số hướng chính như sau:

Hiện nay có nhiều kỹ thuật khai phá dữ liệu, mơ hình truy vấn, mơ hình xử lý và thu thập

dữ liệu khác nhau. Bạn sẽ sử dụng một kỹ thuật nào để khai phá dữ liệu của mình và kỹ

thuật nào để kết hợp với phần mềm và cơ sở hạ tầng hiện có của mình? Hãy xem xét các

kỹ thuật và các giải pháp khai phá dữ liệu; phân tích sự khác nhau và tìm hiểu cách xây

dựng chúng nhờ sử dụng phần mềm hiện có. Hãy khám phá các công cụ khai phá dữ liệu

khác nhau, hiểu cách xác định xem kích thước và độ phức tạp của những thơng tin của bạn

có thể dẫn đến những rắc rối về xử lý và lưu trữ không và cần phải làm gì.

Một số kỹ thuật cốt lõi, được sử dụng trong khai phá dữ liệu, mô tả kiểu hoạt động khai

phá và hoạt động phục hồi dữ liệu. Thật không may là các công ty và các giải pháp khác

nhau không phải lúc nào cũng dùng chung các thuật ngữ. Chính các thuật ngữ này có thể

làm tăng thêm sự mơ hồ và sự phức tạp.

Hãy xem xét một số kỹ thuật chính và ví dụ về cách sử dụng các công cụ khác nhau để

dựng lên việc khai phá dữ liệu.

1.3.1. Mô tả khái niệm

Mô tả khái niệm (Concept Description): thiên về mơ tả, tổng hợp và tóm tắt khái niệm. Ví

dụ: tóm tắt văn bản.

Mơ tả theo các phương pháp mô tả tri thức: mô tả bằng logic hình thức; mạng ngữ nghĩa

hoặc chuyê sang dạng ma trận; mô tả bằng luật; mô tả bằng mạng Bayes…

1.3.2. Sự kết hợp



Luật kết hợp (Association Rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản. Ví

dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt

bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài

chính & thị trường chứng khoán v.v…

Sự kết hợp (hay mối quan hệ) là kỹ thuật khai phá dữ liệu được biết đến nhiều hơn, quen

thuộc và đơn giản. Ở đây, bạn thực hiện một sự tương quan đơn giản giữa hai hoặc nhiều

mục, thường cùng kiểu để nhận biết các mẫu. Ví dụ, khi theo dõi thói quen mua hàng của

người dân, bạn có thể nhận biết rằng một khách hàng ln mua kem khi họ mua dâu tây,

nên bạn có thể đề xuất rằng lần tới khi họ mua dâu tây, họ cũng có thể muốn mua kem.

Việc xây dựng các cơng cụ khai phá dữ liệu dựa trên sự kết hợp hay mối quan hệ có thể

thực hiện đơn giản bằng các cơng cụ khác nhau. Ví dụ, trong InfoSphere Warehouse một

trình hướng dẫn đưa ra các cấu hình của một luồng thông tin được sử dụng kết hợp bằng

cách xem xét thông tin nguồn đầu vào của cơ sở dữ liệu, thông tin về cơ sở ra quyết định

và thông tin đầu ra của bạn. Hình 2 cho thấy một ví dụ của cơ sở dữ liệu ví dụ mẫu.



Hình 2. Luồng thông tin được sử dụng theo cách kết hợp



1.3.3. Sự phân loại, phân lớp



Phân lớp và dự đoán (Classification & Prediction): xếp một đối tượng vào một trong

những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận

này thường sử dụng một số kỹ thuật của Machine Learning như cây quyết định (Decision

Tree), mạng nơ ron nhân tạo (neural network) v.v... Người ta còn gọi phân lớp là học có

giám sát (học có thầy).

Bạn có thể sử dụng sự phân loại để xây dựng một ý tưởng về kiểu khách hàng, kiểu mặt

hàng hoặc kiểu đối tượng bằng cách mơ tả nhiều thuộc tính để nhận biết một lớp cụ thể. Ví

dụ, bạn có thể dễ dàng phân loại các xe ô tô thành các kiểu xe khác nhau (xe mui kín, 4x4,

xe có thể bỏ mui) bằng cách xác định các thuộc tính khác nhau (số chỗ ngồi, hình dạng xe,

các bánh xe điều khiển). Với một chiếc xe mới, bạn có thể đặt nó vào một lớp cụ thể bằng

cách so sánh các thuộc tính với định nghĩa đã biết của chúng tơi. Bạn có thể áp dụng các

nguyên tắc tương tự ấy cho các khách hàng, ví dụ bằng cách phân loại khách hàng theo độ

tuổi và nhóm xã hội.

Hơn nữa, bạn có thể sử dụng việc phân loại như một nguồn cấp, hoặc như là kết quả của

các kỹ thuật khác. Ví dụ, bạn có thể sử dụng các cây quyết định để xác định một cách

phân loại. Việc phân cụm sẽ cho phép bạn sử dụng các thuộc tính chung theo các cách

phân loại khác nhau để nhận biết các cụm.

1.3.4. Việc phân cụm (Clustering)

Phân cụm (Clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm

chưa được biết trước. Người ta còn gọi phân cụm là học khơng giám sát (học không thầy).

Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, bạn có thể nhóm các phần dữ

liệu riêng lẻ với nhau để tạo thành một quan điểm cấu trúc. Ở mức đơn giản, việc phân

cụm đang sử dụng một hoặc nhiều thuộc tính làm cơ sở cho bạn để nhận ra một nhóm các

kết quả tương quan. Việc phân cụm giúp để nhận biết các thơng tin khác nhau vì nó tương

quan với các ví dụ khác, nên bạn có thể thấy ở đâu có những điểm tương đồng và các

phạm vi phù hợp. Việc phân cụm có thể làm theo hai cách. Bạn có thể giả sử rằng có một

cụm ở một điểm nhất định và sau đó sử dụng các tiêu chí nhận dạng của chúng tơi để xem

liệu bạn có đúng khơng. Đồ thị trong Hình 3 là một ví dụ hay. Trong ví dụ này, một ví dụ

mẫu về dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng. Thật hợp lý

khi thấy rằng những người ở độ tuổi hai mươi (trước khi kết hôn và còn nhỏ), ở độ tuổi

năm mươi và sáu mươi (khi khơng còn con cái ở nhà), có nhiều tiền tiêu hơn.



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Hình 1. Phác thảo quá trình

Tải bản đầy đủ ngay(0 tr)

×