Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set
Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High Utility Itemset) lại quan tâm đến lợi nhuận thu được khi bán các tập mục cùng nhau.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Bạn đang xem tài liệu "Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set
122(11) 11.2017 Khoa học Tự nhiên Đặt vấn đề Khai phá tập phổ biến (FIM - Frequent Itemset Mining) được Agrawal giới thiệu vào năm 1993 khi phân tích mô hình dữ liệu siêu thị [1], làm cơ sở để mở rộng thành các bài toán khác trong lĩnh vực khai phá dữ liệu. Trong các nghiên cứu về thị trường, FIM trong CSDL giao dịch chính là tìm các tập (itemset) thường xuyên xuất hiện trong các giao dịch. Các thuật toán khai phá tập phổ biến thường áp dụng tính chất bao đóng giảm (downward closure property) [2] để tăng khả năng tỉa các tập ứng viên thừa. Cụ thể, nếu có một tập không phổ biến X thì thuật toán không xét các tập ứng viên chứa tập X, nghĩa là với một bộ dữ liệu chứa n phần tử và X chứa k phần tử, thuật toán sẽ không xét 2(n-k) - 2 tập có chứa X. Tuy nhiên, tập phổ biến chỉ quan tâm đến việc có mua hay không mua các mặt hàng mà không quan tâm đến lợi nhuận thu được đối với từng mặt hàng. Vì vậy, bài toán khai phá tập hữu ích cao được đặt ra. Chúng ta xét ví dụ như ở hình 1 về dữ liệu bán hàng [3] để hiểu rõ hơn về bài toán khai phá tập phổ biến và bài toán khai phá HUI. Trong đó, bảng (1A) là bảng chứa giá trị lợi nhuận trên từng đơn vị sản phẩm (item) và bảng (1B) chứa thông tin từng giao dịch với từng sản phẩm tương ứng với số lượng bán được trong giao dịch đó. Với khai phá tập phổ biến không quan tâm đến bảng (1A) và số lượng ở bảng (1B), nhưng tập phổ biến chưa chắc là tập có giá trị hữu ích cao. Cụ thể, độ phổ biến của {bc} là 3, hữu ích là 18, trong khi {de} có giá trị lần lượt là 2 và 22. Tương tự như tập phổ biến, một tập là HUI nếu giá trị hữu ích (chẳng hạn như lợi nhuận thu được khi bán itemset trong tất cả các giao dịch) phải đạt ngưỡng tối thiểu cho trước. Với tập hữu ích cao, tính chất bao đóng giảm không còn phù hợp, cụ thể: Các tập {a}, {ab}, {abc} có độ phổ biến lần lượt là 4, 3, 2 (thỏa mãn tính chất bao đóng giảm) nhưng giá trị hữu ích là 16, 26, 21. Nếu lấy ngưỡng là 20 thì Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set Võ Đình Bảy1*, Nguyễn Tấn Phúc2 1Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh 2Trung tâm Ngoại ngữ - Tin học, Trường Đại học Khánh Hòa Ngày nhận bài 3/7/2017; ngày chuyển phản biện 7/7//2017; ngày nhận phản biện 4/8/2017; ngày chấp nhận đăng 10/8/2017 Tóm tắt: Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High Utility Itemset) lại quan tâm đến lợi nhuận thu được khi bán các tập mục cùng nhau. Đã có nhiều thuật toán được phát triển nhằm nâng cao hiệu quả khai phá HUI, trong đó EFIM (EFficient high-utility Itemset Mining) là thuật toán mới nhất áp dụng nhiều kỹ thuật để cải thiện tốc độ và không gian tìm kiếm. Tuy nhiên, EFIM vẫn còn tốn nhiều chi phí quét các dòng dữ liệu để xác định sự liên quan đến ứng viên đang xét làm giảm hiệu quả của thuật toán, đặc biệt là đối với cơ sở dữ liệu (CSDL) thưa. Bài báo này đề xuất giải pháp chiếu ngược P-set để giảm số lượng giao dịch cần xét trong thuật toán EFIM và vì vậy, làm giảm thời gian khai phá HUI. Một thuật toán cải tiến từ EFIM (IEFIM - Improve EFficient high-utility Itemset Mining) dựa trên P-set cũng được đề nghị. Kết quả thực nghiệm cho thấy, thuật toán IEFIM làm giảm đáng kể số lượng giao dịch cần xét và thời gian thực thi trên các CSDL thưa. Từ khóa: Khai phá dữ liệu, khai phá tập hữu ích cao, tỉa ứng viên. Chỉ số phân loại: 1.2 *Tác giả liên hệ: Email: bayvodinh@gmail.com Hình 1. Dữ liệu bán hàng. (B) Bảng giao dịch. (A) Bảng lợi nhuận. Item a b c d e g Utility 1 2 1 5 4 3 1 Tid Giao dịch Số lượng T1 {b,c,d,g} {1,2,1,1} T2 {a,b,c,d,e} {4,1,3,1,1} T3 {a,c,d} {4,2,1} T4 {a,b,d,e} {5,2,1,2} T5 {a,b,c,f} {3,4,1,2} 222(11) 11.2017 Khoa học Tự nhiên ta chọn {ab}, {abc} và loại {a}, còn nếu lấy ngưỡng là 22 thì chỉ mỗi {ab} được chọn. Vì vậy, các phương pháp khai phá tập phổ biến không thể áp dụng vào khai phá tập hữu ích cao. Từ khi bài toán được phát biểu vào năm 2004 [4] đến nay, đã có nhiều thuật toán khai phá tập hữu ích cao được phát triển nhằm nâng cao hiệu quả khai phá: UMining (2004) [4], UMining-H (2006) [5], Two-Phase (2005) [6], IHUP (2009) [7], TWU-Mining (2009) [8], UP-Growth (2010) [9], DTWU-Mining (2011) [10], EFIM (2015) [11] và một số hướng phát triển khác của tập hữu ích cao, điển hình như khai phá tập đóng có CHUD (2011) [12], AprioriCH, AprioriHC-D (2015) [13]; khai phá Top-k HUI có TKU (2012) [14], TKO (2016) [15]; khai phá HUI trên luồng dữ liệu có THUI-Mine (2008) [16], GUIDE (2012) [17], hay khai phá HUI trên dữ liệu không chắc chắn [18]. Trong số các thuật toán khai phá tập hữu ích cao, EFIM được xem là thuật toán nhanh nhất với nhiều giải pháp để cải thiện không gian tìm kiếm và thời gian như kỹ thuật chiếu trên CSDL (Database Projection), trộn các giao dịch (Transaction Merging) và tính lại biên cận trên. Mặc dù cải thiện đáng kể về thời gian khai phá và bộ nhớ sử dụng so với các thuật toán trước đó (UP-Growth, HUI-Miner [3], UP-Growth [19], HUP-Miner [20]) nhưng EFIM vẫn quét thừa giao dịch dẫn đến: Tìm kiếm vị trí tập ứng viên trong giao dịch chưa hiệu quả; tăng thời gian tạo vùng dữ liệu để mở rộng ứng viên; duyệt qua cả những giao dịch không chứa ứng viên để tính giá trị hữu ích của tập ứng viên; hiệu quả về tốc độ tìm kiếm tập hữu ích không cao do thuật toán thực hiện đồng thời 3 công việc với mỗi giao dịch, kể cả giao dịch không chứa ứng viên (tìm kiếm vị trí ứng viên, thực hiện phép chiếu ứng viên trên giao dịch và tính độ hữu ích ứng viên). Dựa trên các nhận xét trên, bài báo có một số đóng góp như sau: i) Đề xuất cấu trúc P-set với mục đích hạn chế số giao dịch tham gia trực tiếp vào quá trình khai phá tập hữu ích cao; ii) Đề xuất phương pháp chiếu ngược trên P-set giữa tập ứng viên và vùng dữ liệu đang xét nhằm hạn ... thiểu Output: Các tập hữu ích cao 1. X = ∅; 2. Duyệt D tính lu(X, i) cho tất cả i ∈ I; 3. Secondary(X) = {i|i ∈ I ∧ lu(X, i) ≥ minutil}; 4. Sắp xếp tăng dần Secondary(X) theo giá trị TWU; 5. Duyệt D để xóa các phần tử i ∉ Secondary(X) ra khỏi các giao dịch và xóa các giao dịch rỗng; 6. Sắp xếp các giao dịch T tăng dần; 7. Duyệt D tính su(X,i) và Pex-set(X,i) cho từng phần tử i ∈ Secondary(X); 8. Primary(X) = {i|i ∈ Secondary(X) ∧ su(X, i) ≥ minutil}; 9. Search (X, D, Primary(X), Secondary(X), minutil,Pex- set(X,i)). Thủ tục Search Input: X: Tập phần tử đang xét, cD x : Các giao dịch được chiếu và trộn bởi X, Primary(X): Các phần tử chính X, Secondary(X): Các phần tử mở rộng của X, ngưỡng minutil,Pex-set(X,i): Tid các giao dịch dùng mở rộng X với {i}. Output: Các tập hữu ích cao mở rộng từ x. 1. Foreach item i ∈ P rimary (X) do 2. β = X ∪ {i}; 3. Dùng Pex-set(X,i) để duyệt D x để tính u(β) và xây dựng D e ; // dùng phép trộn giao dịch; 4. If u(β) ≥ minutil then xuất β; 5. Duyệt β-D tính su(β, z), lu(β, z) và P-set-ex(β,z) cho tất cả z ∈ Secondary(X) sau i; 6. Primary(β) = {z ∈ Secondary(X)|su(β, z) ≥ minutil}; 7. Secondary(β) = {z ∈ Secondary(X)|lu(β, z) ≥ minutil}; 8. Search (β, D e , Primary(β), Secondary(β), minutil, Pex-set(β,z)); 9. End. Loại dữ liệu Số giao dịch Số phần tử Độ dài trung bình Đánh giá Accident 340183 468 33,8 Đặc BMS-POS 59601 497 4,8 Thưa Chess 3196 75 37 Rất đặc Foodmart 67557 129 43 Thưa Kosarak 990002 41270 8,1 Thưa Retail 87943 16465 10,3 Thưa T10I4D100K 100000 870 10,1 Thưa T40I10D100K 100000 942 39,6 Thưa 622(11) 11.2017 Khoa học Tự nhiên Ngoài ra, các CSDL Retail, T10I4D100K, T40I10D100K được phát sinh ngẫu nhiên từ 1 đến 10 các giá trị: Độ hữu ích của từng phần tử và số lượng trong từng giao dịch, đặc điểm các bộ dữ liệu thực nghiệm chuẩn được mô tả tại bảng 1. Chúng tôi chạy thực nghiệm trên các CSDL nêu trên và ghi lại thời gian thực hiện, số giao dịch được quét để thực hiện phép chiếu nhằm xây dựng vùng dữ liệu mới dùng mở rộng ứng viên và tính giá trị hữu ích. 2 Số lư ợn g gi ao d ịc h (n gh ìn ) Số lư ợn g gi ao d ịc h (n gh ìn ) minutil (triệu) (A) Đồ thị so sánh số lượng giao dịch trên CSDL Accident. minutil (nghìn) (B) Đồ thị so sánh số lượng giao dịch trên CSDL BMS-POS. Số lư ợn g gi ao d ịc h (tr iệ u) Số lư ợn g gi ao d ịc h (tr iệ u) minutil (nghìn) (C) Đồ thị so sánh số lượng giao dịch trên CSDL Chess. minutil (nghìn) (D) Đồ thị so sánh số lượng giao dịch trên CSDL Foodmart. Số lư ợn g gi ao d ịc h (tr iệ u) Số lư ợn g gi ao d ịc h (tr iệ u) minutil (nghìn) (E) Đồ thị so sánh số lượng giao dịch trên CSDL Kosarak. minutil (nghìn) (F) Đồ thị so sánh số lượng giao dịch trên CSDL Retail. 3 Từ kết quả thực nghiệm được thể hiện qua các đồ thị so sánh số lượng giao dịch tham gia phép chiếu tạo vùng dữ liệu để mở rộng ứng viên và tính giá trị hữu ích của tập ứng viên (hình 5) ta có nhận xét, khi áp dụng phương pháp chiếu ngược, thuật toán IEFIM giảm hẳn số giao dịch, giảm từ 9 (như T40I10D100K, hình 5H) đến 400 lần (như Kosarak, hình 5E) đối với loại CSDL được đánh giá thưa, và tỷ lệ này giảm dần đối với các loại dữ liệu được đánh giá dày và rất dày, cụ thể với Accident và Chess (hình 5a và 5c), số lượng giao dịch được quét giảm không đáng kể. Về thời gian thực hiện, thuật toán IEFIM nhanh hơn hẳn EFIM trên CSDL thưa, giảm thời gian thực hiện từ 2 (Foodmart, hình 6d) đến 60 lần (Retail, hình 6f). Đối với CSDL đặc/rất đặc như Accident, Chess thì thời gian cải thiện không đáng kể (hình 6a và 6c). Số lư ợn g g iao dị ch (t riệ u) Số lư ợn g g iao dị ch (t riệ u) minutil (nghìn) (G) Đồ thị so sánh số lượng giao dịch trên CSDL 10I4D100K. minutil (nghìn) (H) Đồ thị so sánh số lượng giao dịch trên CSDL T40I10D100K. Hình 5. Đồ thị so sánh số lượng giao dịch. Th ời gia n t hự c h iện (g iây ) Th ời gia n t hự c h iện ( mi li g iây ) minutil (triệu) (A) Đồ thị so sánh thời gian trên CSDL Accident. minutil (nghìn) (B) Đồ thị so sánh thời gian trên CSDL BMS-POS. Hình 5. Đồ thị so sánh số lượng giao dịch. 722(11) 11.2017 Khoa học Tự nhiên Từ kết quả thực nghiệm được thể hiện qua các đồ thị so sánh số lượng giao dịch tham gia phép chiếu tạo vùng dữ liệu để mở rộng ứng viên và tính giá trị hữu ích của tập ứng viên (hình 5) ta có nhận xét, khi áp dụng phương pháp chiếu ngược, thuật toán IEFIM giảm hẳn số giao dịch, giảm từ 9 (như T40I10D100K, hình 5H) đến 400 lần (như Kosarak, hình 5E) đối với loại CSDL được đánh giá thưa, và tỷ lệ này giảm dần đối với các loại dữ liệu được đánh giá dày và rất dày, cụ thể với Accident và Chess (hình 5A và 5C), số lượng giao dịch được quét giảm không đáng kể. Về thời gian thực hiện, thuật toán IEFIM nhanh hơn hẳn EFIM trên CSDL thưa, giảm thời gian thực hiện từ 2 (Foodmart, hình 6D) đến 60 lần (Retail, hình 6F). Đối với CSDL đặc/rất đặc như Accident, Chess thì thời gian cải thiện không đáng kể (hình 6A và 6C). 3 Từ kết quả thực nghiệm được thể hiện qua các đồ thị so sánh số lượng giao dịch tham gia phép chiếu tạo vùng dữ liệu để mở rộng ứng viên và tính giá trị hữu ích của tập ứng viên (hình 5) ta có nhận xét, khi áp dụng phương pháp chiếu ngược, thuật toán IEFIM giảm hẳn số giao dịch, giảm từ 9 (như T40I10D100K, hình 5H) đến 400 lần (như Kosarak, hình 5E) đối với loại CSDL được đánh giá thưa, và tỷ lệ này giảm dần đối với các loại dữ liệu được đánh giá dày và rất dày, cụ thể với Accident và Chess (hình 5a và 5c), số lượng giao dịch được quét giảm không đáng kể. Về thời gian thực hiện, thuật toán IEFIM nhanh hơn hẳn EFIM trên CSDL thưa, giảm thời gian thực hiện từ 2 (Foodmart, hình 6d) đến 60 lần (Retail, hình 6f). Đối với CSDL đặc/rất đặc như Accident, Chess thì thời gian cải thiện không đáng kể (hình 6a và 6c). Số lư ợn g g iao dị ch (t riệ u) Số lư ợn g g iao dị ch (t riệ u) minutil (nghìn) (G) Đồ thị so sánh số lượng giao dịch trên CSDL 10I4D100K. minutil (nghìn) (H) Đồ thị so sánh số lượng giao dịch trên CSDL T40I10D100K. Hình 5. Đồ thị so sánh số lượng giao dịch. Th ời gi an th ực hi ện (g iây ) Th ời gi an th ực hi ện ( m ili gi ây ) minutil (triệu) (A) Đồ thị so sánh thời gian trên CSDL Accident. minutil (nghìn) (B) Đồ thị so sánh thời gian trên CSDL BMS-POS. 4 Th ời gi an th ực hi ện ( gi ây ) Th ời gi an th ực hi ện ( m ili gi ây ) minutil (nghìn) (C) Đồ thị so sánh thời gian trên CSDL Chess. minutil (D) Đồ thị so sánh thời gian trên CSDL Foodmart. Th ời gi an th ực hi ện ( giâ y) Th ời gi an th ực hi ện ( giâ y) minutil (nghìn) (E) Đồ thị so sánh thời gian trên CSDL Kosarak. minutil (F) Đồ thị so sánh thời gian trên CSDL Retail. Hình 6. Đồ thị so sánh thời gian thực hiện. 5 Th ời g ian th ực hi ện ( gi ây ) Th ời g ian th ực hi ện ( gi ây ) minutil (nghìn) (G) Đồ thị so sánh thời gian trên CSDL T10I4D100K. minutil (nghìn) (H) Đồ thị so sánh thời gian trên CSDL T40I10D100K. Hình 6. Đồ thị so sánh thời gian thực hiện. 5 Th ời gi an th ực hi ện ( gi ây ) Th ời gi an th ực hi ện ( gi ây ) minutil (nghìn) (G) Đồ thị so sánh thời gian trên CSDL T10I4D100K. minutil ( ghìn) (H) Đồ thị so sánh thời gia trên CSDL T40I D100K. Hình 6. Đồ thị o sán thời gian thực hiện. 822(11) 11.2017 Khoa học Tự nhiên Nguyên nhân: Hiệu quả của thuật toán IEFIM tập trung vào việc giảm tổng số lần các giao dịch được quét qua phép chiếu để tạo vùng dữ liệu mới phục vụ mở rộng ứng viên, nên khi tỷ lệ chênh lệch này không đáng kể thì hiệu quả thuật toán cải tiến không nhiều. Tốc độ thuật toán không được cải thiện nhiều do việc giảm số lượng giao dịch thừa đối với CSDL dày và rất dày không đáng kể nhưng chi phí tạo phép chiếu ngược lại tăng so với các loại dữ liệu khác. Kết quả so sánh về số lượng giao dịch cần xét và thời gian chạy thuật toán thể hiện ở đồ thị minh họa ở hình 5 và hình 6. Kết luận và hướng phát triển Trong bài báo này, chúng tôi đã giới thiệu giải pháp chiếu ngược P-set để tăng tốc độ khai phá tập hữu ích cao bằng cách hạn chế quét các số giao dịch thừa. Bằng thực nghiệm đã chứng minh được hiệu quả của P-set với dữ liệu thưa và cũng phù hợp với các môi trường dữ liệu kinh doanh trong thực tế được thể hiện như Foodmart. Với hiệu quả này, chúng tôi sẽ tiếp tục nghiên cứu để áp dụng vào các hướng khai phá khác tập hữu ích cao như khai phá HUI đóng, khai phá Top-k HUI... Ngoài ra, việc lai ghép nhiều kỹ thuật khác nhau để tăng tốc độ, giảm không gian tìm kiếm và không gian bộ nhớ cũng được chúng tôi quan tâm. LỜI CẢM ƠN Nghiên cứu này được tài trợ bởi Quỹ Phát triển Khoa học và Công nghệ Quốc gia (NAFOSTED) trong khuôn khổ đề tài mã số 102.05-2015.10. Chúng tôi xin trân trọng cảm ơn. TÀI LIỆU THAM KHẢO [1] R. Agrawal, T. Imielinski, A.N. Swami (1993), “Mining association rules between sets of items in large databases”, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, Washington D.C., pp.207-216. [2] R. Agrawal, R. Srikant (1994), “Fast algorithms for mining association rules in large databases”, Proc. Int’l Conf. Very Large Data Bases, pp.487-499. [3] M. Liu, J. Qu (2012), “High utility itemsets without candidate generation”, 21st ACM International Conference on Information and Knowledge Management, pp.55-64. [4] H. Yao, H.J. Hamilton, C.J. Butz (2004), “A foundational approach to mining itemset utilities from databases”, In Proc. SIAM Int’l Conf. Data Mining, pp.482-486. [5] H. Yao, H.J. Hamilton (2006), “Mining Itemset Utilitied from Transaction Databases”, Data and Knowledge Engeneering, 59(3), pp.603-626. [6] Y. Liu, W.K. Liao, A.N. Choudhary (2005), “A two-phase algorithm for fast discovery of high utility itemsets”, Proc. Pacific-Asia Conf. Knowledge Discovery and Data Mining, pp.689-695. [7] C. Ahmed, S.K. Tanbeer, B.S. Jeong, Y.K. Lee (2009), “Efficient tree structures for high utility pattern mining in incremental databases”, IEEE Transactions on Knowledge and Data Engineering, 21(12), pp.1708-1721. [8] B. Le, H. Nguyen, T.A. Cao, B. Vo (2009), “A Novel Algorithm for Mining High Utility Itemsets”, Proceedings of 1st Asian Conference on Intelligent Information and Database Systems, Quang Binh, Vietnam (IEEE press), pp.13- 17. [9] V.S. Tseng, C.W. Wu, B.E. Shie, P.S. Yu (2010), “Upgrowth: Anefficientalgorithm for high utility itemset mining”, Proc. ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, pp.253-262. [10] B. Le, H. Nguyen, B. Vo (2011), “An efficient strategy for mining high utility itemsets”, International Journal of Intelligent Information and Database Systems, 5(2), pp.164-176. [11] S. Zida, P. Fournier-Viger, J.C.W. Lin, C.W. Wu, V.S. Tseng (2015), “EFIM: A Highly Efficient Algorithm for High-Utility Itemset Mining”, Advances in Artificial Intelligence and Soft Computing, Springer., pp.530-546. [12] C.W. Wu, P. Fournier-Viger, P.S. Yu, V.S. Tseng (2011), “Efficient Mining of a Concise and Lossless Representation of High Utility Itemsets”, IEEE 11th International Conference on Data Mining, pp.824-833. [13] V.T. Tseng, C.W. Wu, P. Fournier-Viger, P.S. Yu (2015), “Efficient Algorithms for Mining the Concise and Lossless Representation of High Utility Itemsets”, IEEE Transactions on Knowledge and Data Engineering, 27(3), pp.726-739. [14] C.W. Wu, B.E. Shie, V.T. Tseng, P.S. Yu (2012), “Mining top-K high utility itemsets”, KDD ‘12 Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining , pp.78-86. [15] V.T. Tseng, C.W. Wu, P. Fournier-Viger, P.S. Yu (2016), “Efficient Algorithms for Mining Top-K High Utility Itemsets”, IEEE Transactions on Knowledge and Data Engineering, 28(1), pp.54-67. [16] C.J. Chu, V.S. Tseng, T. Liang (2008), “An efficient algorithm for mining temporal high utility itemsets from data streams”, Journal of Systems and Software, 81(7), pp.1105-1117. [17] Bai-En Shie, S. Yu Philip, V.S. Tseng (2012), “Efficient algorithms for mining maximal high utility itemsets from data streams with different models”, Expert Systems with Applications, 39(17), pp.12947-12960. [18] J.C.W. Lin, W. Gan, P. Fournier-Viger, T.P. Hong, V.T. Tseng (2016), “Efficient algorithms for mining high-utility itemsets in uncertain databases”, Knowledge-Based Systems, 96, pp.171-187. [19] V.S. Tseng, B.E. Shie, C.W. Wu, P.S. Yu (2013), “Efficient algorithms for mining high utility itemsets from transactional databases”, IEEE Transactions on Knowledge and Data Engineering, 25(8), pp.1772-1786. [20] K. Krishnamoorthy (2015), “Pruning strategies for mining high utility itemsets”, Expert Systems with Applications, 42(5), pp. 2371-2381. [21] M. Zaki (2000), “Scalable algorithms for association mining”, IEEE Transactions on Knowledge and Data Engineering, 12(3), pp.372-390. [22] J. Han, J. Pei, Y. Yin, R. Mao (2004), “Mining frequent patterns without candidate generation: A frequent pattern tree approach”, Data Mining and Knowledge Discovery, 8(1), pp.53-87. [23] P. Fournier-Viger, C.W. Wu, S. Zida, V.T. Tseng (2014), “FHM: Faster High-Utility Itemset Mining using Estimated Utility Co-occurrence Pruning”, Proc. 21st International Symposium on Methodologies for Intelligent Systems (ISMIS 2014), Springer, pp.83-92. [24] P. Fournier-Viger, A. Gomariz, T. Gueniche, A. Soltani, C.W. Wu, V.S. Tseng (2014), “SPMF: A java open-source pattern mining library”, The Journal of Machine Learning Research, 15(1), pp.3389-3393.
File đính kèm:
- nang_cao_hieu_qua_khai_pha_tap_huu_ich_cao_bang_giai_phap_ch.pdf