PHÂN LOẠI NHẠC THEO THỂ LOẠI DÙNG PHÉP BIẾN ĐỔI WAVELET RỜI RẠC

Similar documents
CÀI ĐẶT MẠNG CHO MÁY IN LBP 3500 và LBP 5000

PHÂN TÍCH DIỄN BIẾN LƯU LƯỢNG VÀ MỰC NƯỚC SÔNG HỒNG MÙA KIỆT

KIỂM TOÁN CHU TRÌNH BÁN HÀNG VÀ NỢ PHẢI THU

5/13/2011. Bài 3: Báo cáo kết quả kinh doanh. Nội dung. Trình bày báo cáo kết quả kinh doanh

CMIS 2.0 Help Hướng dẫn cài đặt hệ thống Máy chủ ứng dụng. Version 1.0

Bài 15: Bàn Thảo Chuyến Du Ngoạn - cách gợi ý; dùng từ on và happening

TÀI LIỆU Hướng dẫn cài đặt thư viện ký số - ACBSignPlugin

CHƯƠNG I. TỔNG QUAN VỀ HỆ THỐNG DCS- CENTUM CS 3000

PREMIER VILLAGE PHU QUOC RESORT

NATIVE ADS. Apply from 01/03/2017 to 31/12/2017

BIÊN DỊCH VÀ CÀI ĐẶT NACHOS

nhau. P Z 1 /(O) P Z P X /(Y T ) khi và chỉ khi Z 1 A Z 1 B XA XB /(Y T ) = P Z/(O) sin Z 1 Y 1A PX 1 P X P X /(Y T ) = P Z /(Y T ).

Chúng ta cùng xem xét bài toán quen thuộc sau. Chứng minh. Cách 1. F H N C

Abstract. Recently, the statistical framework based on Hidden Markov Models (HMMs) plays an important role in the speech synthesis method.

PHÂN PHỐI CHUẨN. TS Nguyen Ngoc Rang; Website: bvag.com.vn; trang:1

CÁC BIỆN PHÁP BẢO VỆ THEO THỦ TỤC Quyền Giáo Dục Đặc Biệt của Gia Đình Quý vị

CHƯƠNG IX CÁC LỆNH VẼ VÀ TẠO HÌNH (TIẾP)

Bottle Feeding Your Baby

Model SMB Lưỡi dao, bộ phận cảm biến nhiệt và lòng bình bằng thép không gỉ 304 an toàn cho sức khỏe.

XÂY DỰNG MÔ HÌNH CƠ SỞ DỮ LIỆU PHÂN TÁN CHO HỆ THỐNG THÔNG TIN ĐẤT ĐAI CẤP TỈNH VÀ GIẢI PHÁP ĐỒNG BỘ HÓA CƠ SỞ DỮ LIỆU TRÊN ORACLE

Định hình khối. Rèn kim loại

Giáo dục trí tuệ mà không giáo dục con tim thì kể như là không có giáo dục.

ĐIỀU KHIỂN ROBOT DÒ ĐƯỜNG SỬ DỤNG BỘ ĐIỀU KHIỂN PID KẾT HỢP PHƯƠNG PHÁP PWM

Chương 3: Chiến lược tìm kiếm có thông tin heuristic. Giảng viên: Nguyễn Văn Hòa Khoa CNTT - ĐH An Giang

Các bước trong phân khúc thi truờng. Chương 3Phân khúc thị trường. TS Nguyễn Minh Đức. Market Positioning. Market Targeting. Market Segmentation

The W Gourmet mooncake gift sets are presently available at:

Phương thức trong một lớp

Hướng dẫn cài Windows 7 từ ổ cứng HDD bằng ổ đĩa ảo qua file ISO bằng hình ảnh minh họa

Ths. Nguyễn Tăng Thanh Bình, Tomohide Takeyama, Masaki Kitazume

NHỊP ĐẬP THỊ TRƯỜNG QUÝ 3, 2015

Hiện nó đang được tân trang toàn bộ tại Hải quân công xưởng số 35 tại thành phố Murmansk-Nga và dự trù trở lại biển cả vào năm 2021.

Ô NHIỄM ĐẤT, NƯỚC VÀ CÁC PHƯƠNG PHÁP XỬ LÝ

AT INTERCONTINENTAL HANOI WESTLAKE 1

QUY CÁCH LUẬN VĂN THẠC SĨ

CƠ SỞ DỮ LIỆU PHÂN TÁN

NGHIÊN CỨU ĐẶC ĐIỂM BIẾN ĐỘNG DÒNG CHẢY VÙNG VEN BIỂN HẢI PHÒNG

So sánh các phương pháp phân tích ổn định nền đường đắp

Điểm Quan Trọng về Phúc Lợi

ĐÁNH GIÁ ẢNH HƯỞNG CỦA CHIỀU RỘNG TẤM ĐẾN BIẾN DẠNG GÓC KHI HÀN TẤM TÔN BAO VỎ TÀU THỦY

MỞ ĐẦU... 1 CHƯƠNG I. TỔNG QUAN MỘT SỐ KHÁI NIỆM CƠ BẢN...

SỬ DỤNG ENZYME -AMYLASE TRONG THỦY PHÂN TINH BỘT TỪ GẠO HUYẾT RỒNG

Sổ tay cài đặt Ubuntu từ live CD

CHỌN TẠO GIỐNG HOA LAN HUỆ (Hippeastrum sp.) CÁNH KÉP THÍCH NGHI TRONG ĐIỀU KIỆN MIỀN BẮC VIỆT NAM

GIỚI THIỆU. Nguồn: Nguồn:

BÀI TẬP DỰ ÁN ĐÂU TƯ (Học kỳ 3. Năm )

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Số: 02/2014/TT-BTTTT Hà Nội, ngày 10 tháng 3 năm 2014 THÔNG TƯ

Nguyễn Thọ Sáo* Trường Đại học Khoa học Tự nhiên, ĐHQGHN, 334 Nguyễn Trãi, Hà Nội, Việt Nam. Nhận ngày 15 tháng 7 năm 2012

MỐI QUAN HỆ GIỮA ĐỘ THOÁNG KHÍ CỦA BAO BÌ BẢO QUẢN CHẤT LƯỢNG CỦA NHÃN XUỒNG CƠM VÀNG TRONG QUÁ TRÌNH TỒN TRỮ

khu vực Vịnh Nha Trang

Chương 17. Các mô hình hồi quy dữ liệu bảng

khu vực ven biển Quảng Bình - Quảng Nam

CHƯƠNG IV CÁC KĨ THUẬT HIỆU CHỈNH CƠ BẢN

HỌC SINH THÀNH CÔNG. Cẩm Nang Hướng Dẫn Phụ Huynh Hỗ Trợ CÁC LỚP : MẪU GIÁO ĐẾN TRUNG HỌC. Quốc Gia mọitrẻ em.mộttiếng nói

TCVN 3890:2009 PHƯƠNG TIỆN PHÒNG CHÁY VÀ CHỮA CHÁY CHO NHÀ VÀ CÔNG TRÌNH TRANG BỊ, BỐ TRÍ, KIỂM TRA, BẢO DƯỠNG

Tng , , ,99

Ông ta là ai vậy? (3) Who is he? (3) (tiếp theo và hết)

Savor Mid-Autumn Treasures at Hilton Hanoi Opera! Gìn giữ nét đẹp cổ truyền

CHƯƠNG VII HÌNH CẮT, MẶT CẮT VÀ KÍ HIỆU VẬT LIỆU

THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG

Tạp chí Khoa học Trường Đại học Cần Thơ Số chuyên đề: Thủy sản (2014)(1):

Các phương pháp thống kê mô tả cho dữ liệu chéo

Đường thành phố tiểu bang zip code. Affordable Care Act/Covered California Tư nhân (nêu rõ): HMO/PPO (khoanh tròn)

CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA BIẾN SỐ LIỆU NGHIÊN CỨU LÂM NGHIỆP BẰNG SAS

Trịnh Minh Ngọc*, Nguyễn Thị Ngoan

DANH SÁCH THÍ SINH DỰ THI IC3 IC3 REGISTRATION FORM

Tạp chí phân tích Hóa, Lý và Sinh học - Tập 20, số 3/2015

Các tùy chọn của họ biến tần điều khiển vector CHV. Hướng dẫn vận hành card cấp nước.

BỘ THÔNG TIN VÀ TRUYỀN THÔNG TRUNG TÂM INTERNET VIỆT NAM TÀI LIỆU HƯỚNG DẪN TRIỂN KHAI DNSSEC TẠI CÁC NHÀ ĐĂNG KÝ TÊN MIỀN

TRƢỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP.HCM

ĐÁNH GIÁ HIỆU QUẢ XỬ LÝ NƯỚC THẢI CHĂN NUÔI LỢN BẰNG HẦM BIOGAS QUY MÔ HỘ GIA ĐÌNH Ở THỪA THIÊN HUẾ

PHƯƠNG PHÁP TẠO HÌNH TỔN KHUYẾT VÙNG MẮT

Các dữ liệu của chuỗi thời gian đã và đang được sử dụng một cách thường xuyên và sâu rộng,

XÂY DỰNG GIẢN ĐỒ SỞ THÍCH SỬ DỤNG PHƯƠNG PHÁP FLASH PROFILE TRONG ĐÁNH GIÁ CHẤT LƯỢNG YAOURT TRÁI CÂY NHIỆT ĐỚI

Những Điểm Chính. Federal Poverty Guidelines (Hướng dẫn Chuẩn Nghèo Liên bang) như được

T I Ê U C H U Ẩ N Q U Ố C G I A TCVN 9386:2012. Xuất bản lần 1. Design of structures for earthquake resistances-

Bộ Kế hoạch & Đầu tư Sở Kế hoạch & Đầu tư Điện Biên

Thông Tin Dành Cho Gia Đình và Bệnh Nhân. Mụn Trứng Cá. Nguyên nhân gây ra mụn trứng cá là gì? Các loại khác nhau của mụn trứng cá là gì?

Công ty Cổ phần Tập đoàn Ma San Thông tin về Công ty

Thỏa Thuận về Công Nghệ của UPS

Bài giảng Kiến trúc của hệ vi xử lý

CHẤT LƯỢNG MÔI TRƯỜNG NƯỚC BIỂN VEN BỜ ĐẢO PHÚ QUỐC

Ước lượng sai số mô hình trong bộ lọc Kalman bằng phương pháp lực nhiễu động

Cơ sở khoa học cho chọn giống Pơ Mu theo mục tiêu nâng cao

PHÂN TÍCH MÓNG CỌC CHỊU TẢI TRỌNG NGANG VÀ KỸ THUẬT LẬP MÔ HÌNH TƯƠNG TÁC CỌC-ĐẤT PHI TUYẾN

Xác định phân bố không gian của các hằng số điều hòa thủy triều tại vùng biển vịnh Bắc Bộ

TRIỂN VỌNG CỦA NGÀNH MÍA ĐƯỜNG, NHIÊN LIỆU SINH HỌC VÀ CÁC VẤN ĐỀ VỀ KỸ THUẬT TRỒNG MÍA

SB 946 (quy định bảo hiểm y tế tư nhân phải cung cấp một số dịch vụ cho những người mắc bệnh tự kỷ) có ý nghĩa gì đối với tôi?

ẢNH HƯỞNG CỦA THỨC ĂN ĐẾN SINH TRƯỞNG VÀ TỈ LỆ SỐNG CỦA ẤU TRÙNG TRAI TAI TƯỢNG VẢY (Tridacna squamosa Lamack, 1819)

ACBS Trade Pro. Hướng dẫn sử dụng

BẢN TIN THÁNG 09 NĂM 2015

Trí Tuệ Nhân Tạo. Nguyễn Nhật Quang. Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội

(Phần Excel) - Hướng dẫn chi tiết cách giải (giải đầy đủ)

Bạn có thể tham khảo nguồn tài liệu được dịch từ tiếng Anh tại đây: Thông tin liên hệ:

Tiến tới hoàn thiện và triển khai hệ thống mô hình giám sát, dự báo và cảnh báo biển Việt Nam

Ghi danh Bỏ phiếu tại Tiểu bang của quý vị bằng cách sử dụng Cẩm nang Hướng dẫn và Mẫu đơn dạng Bưu thiệp này

Hướng dẫn GeoGebra. Bản chính thức 3.0

X-MAS GIFT 2017 // THE BODY SHOP

PHÂN TÍCH TÍNH CHẤT SẢN PHẨM KHÍ, CONDENSATE MỎ THÁI BÌNH NHẰM BỔ SUNG CHO HỆ THỐNG CƠ SỞ DỮ LIỆU DẦU KHÍ VIỆT NAM

HỘI NGHỊ KHOA HỌC TOÀN QUỐC VỀ SINH THÁI VÀ TÀI NGUYÊN SINH VẬT LẦN THỨ 5

Register your product and get support at. POS9002 series Hướng dẫn sử dụng 55POS9002

Transcription:

Kỷ yếu Hội nghị Khoa học Quốc gia lần hứ IX ghiên cứu cơ bản và ứng dụng Công nghệ hông in (FAIR'9) ; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00064 PHÂ LOẠI HẠC THEO THỂ LOẠI DÙG PHÉP BIẾ ĐỔI WAVELET RỜI RẠC Phan Anh Cang 1, Phan Thượng Cang 2 1 Khoa Công ghệ Thông Tin, Trường Đại học Sư Phạm Kỹ Thuậ Vĩnh Long 2 Khoa Công ghệ Thông Tin, Trường Đại học Cần Thơ cangpa@vlue.edu.vn, pcang@ci.cu.edu.vn TÓM TẮT Cùng với sự bùng nổ về công nghệ hông in và sự gia ăng nhu cầu sưu ập nhạc số của mỗi cá nhân hay ổ chức, việc phân loại các bản nhạc để dễ dàng quản lý là mộ nhu cầu ấ yếu. Tuy nhiên, do việc sưu ầm ừ nhiều nguồn khác nhau nên việc phân loại chỉ dựa rên hông in ghi rên ập in lưu rữ còn gặp nhiều hạn chế. Với mộ số lượng đồ sộ các bản nhạc hì việc phân loại các bản nhạc là mộ hách hức đối với người nghe nhạc và các hệ hống lưu rữ âm nhạc. Điều này làm cho nhu cầu xây dựng hệ hống phân loại nhạc ự động rở nên cần hiế. Trong bài báo này, chúng ôi đề xuấ mộ hệ hống phân loại nhạc heo hể loại sử dụng các phương pháp rú rích ập các đặc rưng của ín hiệu audio bao gồm âm sắc (imbral exure), nhịp điệu (rhyhmic conen) và cao độ (pich) phục vụ cho việc phân loại nhạc ự động heo hể loại. Trong đó, phép biến đổi wavele rời rạc để phân ích ín hiệu audio hành các băng ần con dùng cho việc xác định các đặc rưng về nhịp điệu. ghiên cứu của chúng ôi hực hiện minh hoạ rên bốn hể loại Classical, Rock, Jazz và Pop. ghiên cứu này có hể áp dụng mở rộng đối với các hể loại nhạc khác hoặc xây dựng các hệ hống ruy vấn hông in nhạc dựa vào nội dung, kiểm ra việc sao chép bản quyền nhạc,... Từ khóa Phân loại nhạc, wavele rời rạc, ín hiệu âm nhạc, rú rích đặc rưng ín hiệu audio. I. GIỚI THIỆU Trong những năm gần đây, cùng với sự phá riển của công nghệ hông in, số lượng bản nhạc dưới hình hức dữ liệu audio rong các kho dữ liệu lớn, rên Inerne, đang ngày càng gia ăng nhanh chóng. Điều này làm cho việc sở hữu những bản nhạc rở nên dễ dàng hơn bao giờ hế, kéo heo đó là sự gia ăng nhu cầu sưu ập nhạc số ở mỗi cá nhân hay ổ chức. Hiện nay, hầu hế các hệ hống lưu rữ nhạc số sắp xếp các bản nhạc heo ên nhạc sĩ hoặc heo ên bài há rong khi người nghe nhạc chỉ quan âm đến các hể loại nhạc. Điều này đã nảy sinh nhu cầu phân loại nhạc ự động heo hể loại rong các hệ hống lưu rữ nhạc số để cho phép người nghe nhạc có hể ìm kiếm bản nhạc heo yêu cầu. Tuy nhiên, với số lượng lớn nhạc số sưu ầm được, việc phân loại chúng để dễ dàng quản lý rở hành mộ hách hức đối với các hệ hống phân loại nhạc ự động. Điều này là do việc sưu ầm nhạc hực hiện ừ nhiều nguồn nên nó có hể có nhiều hông in khác nhau cho ừng bản nhạc ải về. Bên cạnh đó, người sưu ầm có hể ự nghe lại ừng bản nhạc rồi ự phân loại chúng hay vì chỉ dựa vào các hông in có sẵn được lưu rữ rên ập in nhạc. Theo cách này, độ chính xác về phân loại đối với các bản nhạc sẽ ùy huộc vào khả năng hiểu biế về âm nhạc của người phân loại. Điều này cho hấy, việc phân loại các bản nhạc với các phương pháp ruyền hống rên còn nhiều hạn chế về độ chính xác và không khả hi với mộ số lượng lớn các bản nhạc số. Do đó, các hệ hống phân loại nhạc ự động là rấ cần hiế đối với các hệ hống lưu rữ nhạc số, phá hiện sao chép bản quyền, ìm kiếm hông in nhạc rên Inerne,... bởi vì chúng cung cấp cơ sở khoa học cho việc phân ích các ín hiệu nhạc dựa vào nội dung. hiều nghiên cứu đã đưa ra các ý ưởng phá riển các hệ hống phân loại nhạc ự động rong hời gian gần đây. Anan e al. đề xuấ mộ iếp cận phân loại nhạc dựa rên độ đo ương đồng và máy học vécơ hỗ rợ (Suppor vecor machines - SVM) [1]. Để xác định mức độ ương đồng giữa các ín hiệu audio, phương pháp này biến đổi các file audio dưới định dạng MIDI hành ba ập dữ liệu dạng chuỗi bao gồm cao độ, nhịp điệu, và nố nhạc (Pich sring, Rhyhm sring and oe sring). Tuy nhiên, phương pháp này là không hực ế vì nó đòi hỏi ấ cả các file audio dưới định dạng MIDI và hệ hống phiên âm đa âm là mộ bài oán khó giải quyế hơn là phân loại. Mộ số phương pháp khác phân ích dựa rên hình dạng của ín hiệu audio và ảnh phổ. Cosa e al. đã đề xuấ cách iếp cận dựa vào ảnh phổ để phân loại nhạc [2]. Phương pháp này phân ích ín hiệu audio hành ảnh phổ và sau đó rú rích các đặc rưng ừ ảnh này. Tuy nhiên, chúng a rấ khó để nhận biế hể loại nhạc mộ cách chính xác nếu chỉ dựa rên việc xem ảnh phổ này mà không có sự phân ích dựa rên iế ấu, cao độ, của âm hanh. Mộ cách iếp cận khác cho việc phân loại nhạc dựa rên việc rú rích và lựa chọn đặc rưng được đề xuấ bởi nhiều nghiên cứu được rình bày rong [3], [4]. Trong đó, Masui e al. đã sử dụng các đặc rưng hướng được rú rích dựa rên huậ oán SIFT [4]. Đặc rưng này cung cấp các hông in về ần số của ín hiệu nhạc. Các kế quả hực nghiệm cho hấy việc kế hợp các đặc rưng này với phương pháp SVM làm cho phương pháp phân loại nhạc của họ đạ được độ chính xác 80%. McKay e al. đã cải iến huậ oán phân loại nhạc bằng cách sử dụng đặc rưng lời bài há [5]. Họ sử dụng nhiều đặc rưng kế hợp được rú rích ừ nhiều nguồn audio, lời bài há, biểu ượng, văn hoá liên quan đến hông in âm nhạc. Các kế quả hực nghiệm cho hấy rằng đặc rưng được rú rích ừ lời bài há là kém hiệu quả hơn so với các đặc rưng khác. Chahuranga e al. đã xây dựng hệ hống phân loại nhạc heo hể loại dựa rên cách iếp cận máy học [6], rong đó phương pháp SVM với hàm nhân đa hức được sử dụng. Hai ập đặc rưng được đề xuấ biểu diễn cho miền ần số, miền hời gian, miền Cepsral và hông in hay đổi về ần số rong các ín hiệu audio. Kế quả cho hấy rằng phương pháp này có độ chính xác phân loại lần lượ là 78% và 81% rên ập dữ liệu GTZA và ISMIR2004 ương ứng. Rini Wongso, Diaz D. Sanika nghiên cứu kế hợp phương pháp TCWT (Tree Complex Wavele Transform) và SVM [7]. ghiên cứu này ập rung vào việc phân

522 PHÂ LOẠI HẠC THEO THỂ LOẠI DÙG PHÉP BIẾ ĐỔI WAVELET RỜI RẠC loại bốn hể loại nhạc: Pop, Classical, Jazz và Rock bằng cách sử dụng các chỉ số hống kê về rung bình, độ lệch chuẩn, phương sai, và enropy của các đặc rưng ín hiệu nhạc. Trong bài báo này, chúng ôi giới hiệu mộ huậ oán phân loại nhạc ự động heo hể loại dựa rên phương pháp nhận dạng K- (K-eares eighbor) và ba ập đặc rưng được rú rích ừ ín hiệu nhạc: âm sắc (imbral exure), nhịp điệu (rhyhmic conen) và cao độ (pich). Chúng ôi sử dụng phép biến đổi wavele rời rạc (DWT) để phân ích ín hiệu audio dùng cho việc xác định các đặc rưng về nhịp điệu. ghiên cứu của chúng ôi hực hiện minh hoạ rên bốn hể loại Classical, Rock, Jazz và Pop. ó có hể áp dụng mở rộng đối với các hể loại nhạc khác hoặc xây dựng các hệ hống ruy vấn hông in nhạc dựa vào nội dung, kiểm ra việc sao chép bản quyền nhạc,... Chúng ôi cũng rình bày việc lựa chọn các đặc rưng phù hợp vì chúng ảnh hưởng đáng kể đến độ chính xác phân loại. 2.1. Phép biển đổi wavele rời rạc II. CÁC CÔG VIỆC GHIÊ CỨU LIÊ QUA Phép biến đổi Fourier hường dùng cho phân ích các ín hiệu audio. Tuy nhiên, nó có hạn chế là a không hể biế được ại mộ hời điểm sẽ xuấ hiện những hành phần ần số nào. Để khắc phục nhược điểm này, các nhà khoa học sử dụng biến đổi STFT (Shor ime Fourier ransform). Theo đó, ín hiệu được chia hành các khoảng nhỏ và được biến đổi Fourier rong ừng khoảng đó. Phương pháp này có hạn chế là việc chọn độ rộng của các khoảng ín hiệu phân chia sao cho phù hợp vì nếu độ rộng này càng nhỏ hì độ phân giải hời gian càng ố nhưng phân giải ần số càng kém và ngược lại. Để khắc phục cả 2 phương pháp rên, biến đổi wavele ra đời. Biến đổi wavele (WT) được hực hiện như sau: ín hiệu được nhân với hàm Wavele (ương ự như nhân với hàm cửa sổ rong biến đổi STFT), sau đó hực hiện phân ích riêng rẽ cho các khoảng ín hiệu khác nhau rong miền hời gian ại các ần số khác nhau. Phép biến đổi wavele rời rạc (DWT) là mộ rường hợp đặc biệ của WT. ó cung cấp mộ cách biểu diễn ín hiệu dưới dạng nén rong miền hời gian-ần số giúp cho việc ính oán mộ cách nhanh chóng và hiệu quả. DWT hực hiện phân ích đa phân giải mộ ín hiệu audio x hành 2 hành phần: hành phần ín hiệu hô A (coarse approximaion) ương ứng với hành phần ần số hấp y low và hành phần ín hiệu chi iế D (deail) ương ứng với hành phần ần số cao y high [8]. Sau đó, hành phần ín hiệu hô iếp ục được phân ích ương ự. hư vậy, mộ ín hiệu có hể được biểu diễn dưới dạng ổng của hành phần ín hiệu hô và các hành phần ín hiệu chi iế. Quá rình phân ích này được hực hiện bởi các bộ lọc băng ần cao và hấp đối với ín hiệu x như biểu diễn rong Hình 1 và được định nghĩa bởi công hức (1). yhigh[ k] x[ n] g[2k n] (1) y low [ k] n n x[ n] h[2k n] Trong đó: y high [k]: hành phần ần số cao; y low [k]: hành phần ần số hấp; x[n]: ín hiệu audio; g[n]: bộ lọc băng ần cao; h[n]: bộ lọc băng ần hấp. Hình 1. DWT mức 3 đối với ín hiệu x Tín hiệu x[n] có hể được xác định bằng cách ổng hợp ấ cả các hệ số của y high và y low bắ đầu ừ mức phân ích cuối cùng. Trong bài báo này, chúng ôi sử dụng DWT rong việc phân ích ín hiệu audio heo miền ần số để rú rích các đặc rưng về nhịp điệu và sử dụng bộ lọc băng ần DAUB4 [9] được đề xuấ bởi Daubechies. 2.2. Phương pháp phân loại K Có nhiều phương pháp phân lớp như: K, Bayes, HMMs, Gaussian,... Trong nghiên cứu này, chúng ôi sử dụng phương pháp K- (K-eares eighbor) [10] [11] vì nó đơn giản và được sử dụng phổ biến rong các bài oán phân lớp. Phương pháp này cho phép bổ sung mẫu huấn luyện mới vào bộ huấn luyện dễ dàng và hiệu quả khi ập huấn luyện lớn. Bên cạnh đó, bộ huấn luyện được huấn luyện ừ chính các vecơ đặc rưng rú rích ừ ín hiệu audio. ó xử lý ố với ập dữ liệu nhiễu do dựa rên khoảng cách giữa các vecơ đặc rưng để quyế định phân lớp, do đó nó phù hợp với hệ hống phân loại nhạc.

Phan Anh Cang, Phan Thượng Cang 523 Phương pháp K- xem các mẫu (vecơ đặc rưng) như là các điểm biểu diễn rong không gian đặc rưng n chiều (Hình 2). Khoảng cách giữa mẫu cần phân loại x và k mẫu láng giềng y là d(x, y) được xác định dựa rên khoảng cách không gian. Thông hường, người a dùng khoảng cách Euclide để xác định khoảng cách giữa các mẫu rong không gian đặc rưng được xác định bởi công hức (2). x y n 2 d( x, y) x y ( x i y i ) (2) i1 Xác suấ mẫu x huộc vào hể loại c i được xác định bởi công hức (3): i. y yk, ycci yk w Hình 2. Mô hình phân lớp K- p(c i x ) (3) w Trong đó: w y = (1/d(x,y)); K là mộ ập hợp k mẫu láng giềng gần x nhấ; yc là hể loại của y; c i là hể loại hứ Thuậ oán K-: 1. Xác định giá rị ham số k (số láng giềng gần nhấ). 2. Tính khoảng cách giữa mẫu cần phân loại x với các mẫu rong ập huấn luyện (sử dụng công hức (2)). 3. Xác định k láng giềng gần nhấ với x và các nhãn hể loại của chúng. 4. Xác định nhãn hể loại của x: x được gán nhãn hể loại c i khi p(c i x) là lớn nhấ (sử dụng công hức (3)). III. RÚT TRÍCH ĐẶC TRƯG TÍ HIỆU AUDIO Trên hực ế, ấ cả các đặc rưng của ín hiệu audio khi đưa rực iếp vào các mô hình phân loại sẽ làm giảm đi rõ rệ ốc độ huấn luyện và phân loại. Rú rích đặc rưng là mộ rong những kỹ huậ iền xử lý ín hiệu nhạc được sử dụng phổ biến rong việc phân loại. Quá rình rú rích sẽ khử nhiễu ín hiệu và chỉ chọn các hông in cần hiế cho việc phân loại nhạc. goài ra, việc chọn lọc đặc rưng được dùng để ạo ra mộ ập con đặc rưng ừ dữ liệu đầu vào nhằm làm ăng hiệu quả về mặ hời gian rong việc nhận dạng vì nó là iến rình ự động hoá được dùng để giảm số chiều dữ liệu sao cho dữ liệu đầu vào được chuyển đổi sang dạng đơn giản và nhỏ hơn rước khi đưa vào mô hình phân loại. y Tín hiệu nhạc Rú rích đặc rưng Chọn lọc đặc rưng Vecơ đặc rưng Hình 3. Sơ đồ rú rích đặc rưng ừ mộ ín hiệu nhạc hiều nghiên cứu đã đề xuấ các đặc rưng của ín hiệu audio để nhận dạng, phân loại rong các hệ hống nhận dạng, phân loại khác nhau. Mỗi nghiên cứu đều đưa ra mộ số các đặc rưng của ín hiệu audio và phương hức sử dụng để phân loại. Các đặc rưng của ín hiệu audio hường được chia làm hai nhóm chính: các đặc rưng rong miền hời gian ần số và các đặc rưng cảm hụ âm hanh của con người (nhịp điệu, cao độ) [6]. Trong bài báo này, chúng ôi xây dựng hệ hống phân loại nhạc dựa rên ba ập đặc rưng như sau: - Các đặc rưng về âm sắc (Timbral Texure Feaures). - Các đặc rưng về nhịp điệu (Rhyhmic Conen Feaures). - Các đặc rưng về cao độ (Pich Conen Feaures). 3.1. Đặc rưng về âm sắc Tập đặc rưng về âm sắc được sử dụng để biểu diễn các đặc rưng của âm nhạc liên quan đến iế ấu, âm sắc và nhạc cụ. Vecơ đặc rưng về âm sắc được sử dụng rong hệ hống phân loại của chúng ôi bao gồm 19 chiều với các đặc rưng: (Trung bình và độ lệch chuẩn của Specral Cenroid, Rolloff, Flux, ZeroCrossing, LowEnergy, và Trung bình và độ lệch chuẩn của 5 hệ số MFCC đầu iên). Trung bình và độ lệch chuẩn của các đặc rưng này được xác định dựa rên STFT với các cửa sổ phân ích chia ín hiệu đầu vào có độ dài 1s hành các đoạn nhỏ khoảng 20ms. Sau đây là các đặc rưng được xác định rên mỗi cửa sổ phân ích:

524 PHÂ LOẠI HẠC THEO THỂ LOẠI DÙG PHÉP BIẾ ĐỔI WAVELET RỜI RẠC a) Đặc rưng 1: Specral Cenroid Specral Cenroid là mộ độ đo liên quan hình dáng của phổ ần số. ó xác định điểm cân bằng của phổ ần số. Giá rị Cenroid cao ương ứng với phổ có độ sáng chói hơn và chứa nhiều ần số cao. Specral Cenroid được xác định bởi công hức (4): C n1 M [ n]* n n1 M [ n] Trong đó: M [n] là biên độ của ần số hứ n rong phổ ần số ương ứng với cửa sổ. b) Đặc rưng 2: Rolloff Rolloff cũng là mộ độ đo liên quan hình dáng của phổ ần số. Điểm Rolloff của phổ ần số (R ) được định nghĩa như ần số biên mà ở đó 85% phân bố năng lượng được ập rung rong phổ là dưới điểm này. Công hức (5) xác định R - điểm Rolloff của phổ ần số. c) Đặc rưng 3: Flux R n1 M [ n] 0.85 n1 M [ n] Flux được xem là độ biến hiên phổ, cho biế sự hay đổi về biên độ ần số của phân phối quang phổ giữa hai cửa sổ phân ích liên iếp. ó được xác định là bình phương hiệu giữa các biên độ chuẩn của ần số rong phổ và được xác định bởi công hức (6). F n 1n n1 2 n M n M i i1 (4) (5) 2 (6) Với [n] và -1 [n] là biên độ chuẩn của ần số hứ n rong phổ ần số ở cửa sổ và -1 ương ứng. d) Đặc rưng 4: Zero-crossings Zero Crossings cho biế mức độ ồn (noisiness) của âm hanh rong ín hiệu. ó xuấ hiện khi các mẫu kề nhau rong ín hiệu khác dấu. ó được xác định bởi số lần ín hiệu audio vượ qua rục zero rên mộ đơn vị hời gian và được ính bởi công hức (7): 1 1 x Z sign( x[ n]) sign( x[ n 1]) ; n 0 sign xn (7) 2 n1 0 xn 0 x[n] là ín hiệu rong miền hời gian đối với cửa sổ. e) Đặc rưng 4: Low-Energy Khác với các đặc rưng rên, đặc rưng Low-Energy được xác định rên oàn bộ ín hiệu miền hời gian. ó là ỉ lệ phần răm của các cửa sổ phân ích có RMS (Roo-Mean-Square) năng lượng hấp hơn RMS rung bình năng lượng của các ín hiệu rong các cửa sổ phân ích. Trong đó, RMS năng lượng của ín hiệu ở cửa sổ được xác định bởi công hức (8): RMS i1 ( M [ i] 2 ) f) Đặc rưng 6: Các hệ số MFCC (Mel-Frequency Cepsral Coefficiens) MFCC là mộ rong các ập đặc rưng được dùng phổ biến rong các hệ hống nhận dạng giọng nói, ruy ìm hông in nhạc, ó cung cấp cách biểu diễn nén ín hiệu audio dưới dạng phổ sao cho hầu hế năng lượng của ín hiệu được ập rung vào các hệ số đầu iên. Hình 4 mô ả các bước hực hiện rú rích đặc rưng MFCC ừ ín hiệu audio. Chi iế về phương pháp rú rích đặc rưng MFCC mô ả rong [12]. (8) Tín hiệu audio Chia nhỏ hành các cửa sổ Fas Fourier Transform (FFT) Biến đổi sang hang Mel Phân ích Cepsral MFCC (13 hệ số) Hình 4. Sơ đồ rú rích đặc rưng MFCC

Phan Anh Cang, Phan Thượng Cang 525 Kế quả hu được là mộ ập đặc rưng MFCC gồm 13 hệ số. Tuy nhiên, nhiều nghiên cứu [13] [14] cho hấy 5 hệ số MFCC đầu iên cung cấp khá đầy đủ hông in cho việc phân loại nhạc heo hể loại. Vì vậy, để giảm số chiều cho vecơ đặc rưng, chúng ôi chọn 5 hệ số MFCC đầu iên cho hệ hống phân loại nhạc heo hể loại của chúng ôi. 3.2. Đặc rưng về nhịp điệu nhạc Vecơ đặc rưng về nhịp điệu cung cấp rấ nhiều hông in có ích về đặc điểm của các hể loại nhạc. Hầu hế các hệ hống dò ìm nhịp điệu nhạc cung cấp các huậ oán xác định nhịp điệu của bản nhạc và cường độ của chúng. Bên cạnh đó, chúng còn cho biế mối liên hệ giữa các nhịp của bản nhạc. Trong bài báo này, chúng ôi sử dụng phương pháp xác định ập đặc rưng về nhịp điệu nhạc được đề xuấ bởi George Tzaneakis e al. [15] rong việc phân loại nhạc heo hể loại. Phương pháp này dựa rên việc dò ìm các chu kỳ (đơn vị: bpm - số nhịp/phú) có biên độ lớn nhấ của ín hiệu. Tín hiệu audio X được chia nhỏ hành các ín hiệu hành phần Xi bởi cửa sổ phân ích có kích hước 65536 mẫu với ần số lấy mẫu (sampling rae) là 22050 Hz ương ứng xấp xỉ 3s. Sau đó, huậ oán xác định nhịp điệu nhạc được áp dụng đối với mỗi Xi như biểu diễn rong Hình 5. Xi DWT Các ín hiệu hành phần ương ứng các băng ần khác nhau EE EE EE EE EE EE FWR + LPF AR DS BH MR Hình 5. Sơ đồ khối xác định Hisogram nhịp điệu nhạc Trước iên, ín hiệu Xi được phân ích hành các ín hiệu hành phần (y high và y low ) ương ứng với các băng ần khác nhau dựa vào phép biến đổi Wavele rời rạc (DWT). Tiếp heo, quá rình phân ích được hực hiện rên mỗi băng ần bằng cách áp dụng các bước rong Envelope Exracion (EE) gồm: Full wave recificaion (FWR), low pass filering (LPF), downsampling (DS) và Mean Removal (MR). Sau đó, chúng được ổng hợp và mộ hàm ự ương quan (AR) được xác định. Cuối cùng, ba đỉnh cao nhấ (có biên độ lớn nhấ) của hàm ự ương quan ương ứng với các chu kỳ khác nhau của ín hiệu audio được chọn để đưa vào biểu đồ nhịp điệu (Bea Hisogram - BH). Trong đó, rục hoành của BH biểu diễn số nhịp/phú (đơn vị là bpm) và rục ung biểu diễn cường độ của nhịp (Bea srengh). Sau đây là các bước phân ích EE rên mỗi băng ần để rú rích đặc rưng nhịp điệu: 1. Full Wave Recificaion (FWR): y[n] = abs(x[n]) (9) 2. Low Pass Filer (LPF): Bộ lọc với = 0.99: y[n] = (1- ) x[n] y[n - 1] (10) 3. Downsampling (DS) bởi 1 hệ số k (11) (chọn k = 16 rong cài đặ hệ hống này): y[n] = x[kn] 4. Mean Removal (MR) / ormalizaion: y[n] = x[n] E[x[n]] (12) 1 y [ k] x[ n] x[ n k] (13) 5. Auocorrelaion (AR): n

526 PHÂ LOẠI HẠC THEO THỂ LOẠI DÙG PHÉP BIẾ ĐỔI WAVELET RỜI RẠC Quá rình xác định nhịp điệu nhạc rên ín hiệu audio được áp dụng lặp đi lặp lại rên các ín hiệu hành phần Xi và ích lũy vào rong biểu đồ nhịp điệu BH. Tập các đỉnh cao nhấ của hàm ự ương quan ạo nên biểu đồ nhịp điệu nhạc được sử dụng làm cơ sở cho việc xác định các đặc rưng về nhịp điệu. Trong đó, các đỉnh cao nhấ rong BH ương ứng với các chu kỳ khác nhau của ín hiệu audio là các nhịp chính của bản nhạc. Xác định các đặc rưng về nhịp điệu: Dựa vào BH, các đặc rưng về nhịp điệu: nhịp chính, nhịp phụ, cường độ, được xác định để cung cấp các hông in có ích cho việc phân loại nhạc heo hể loại. Gọi Đ1: đỉnh cao nhấ và Đ2: đỉnh cao hứ nhì rong BH. Vecơ đặc rưng về nhịp điệu là mộ vecơ 6 chiều gồm các đặc rưng: 1. A1, A2: Đặc rưng này là độ đo sự khác nhau về nhịp so với các nhịp còn lại của ín hiệu. ó được xác định bởi ỉ số giữa biên độ của lần lượ 2 đỉnh Đ1 và Đ2 với ổng biên độ của ấ cả các đỉnh rong BH. 2. RA: là ỷ số giữa biên độ của đỉnh Đ2 với biên độ của đỉnh Đ1. Đặc rưng này biểu diễn mối quan hệ giữa nhịp chính và nhịp phụ đầu iên. 3. P1, P2: Chu kỳ của đỉnh Đ1 và Đ2 được ính bằng số nhịp rong 1 phú (đơn vị ính: bpm). 4. SUM: Tổng biên độ của các đỉnh rong BH. Đặc rưng này cho biế độ mạnh của nhịp nhạc. 3.3. Đặc rưng về cao độ Cao độ (pich) là đại lượng ỉ lệ nghịch với ần số cơ bản của ín hiệu audio và liên quan đến đặc rưng về cảm hụ âm hanh của con người. Mặc dù việc phân loại nhạc heo hể loại không hể dựa hoàn oàn vào đặc rưng liên quan đến cao độ, nhưng nó cung cấp hông in rấ có ích cho việc phân loại. Chẳng hạn, nhạc Jazz hoặc Classical hường có mức độ hay đổi cao độ nhiều hơn so với nhạc Rock hoặc Pop. gược lại, biểu đồ về cao độ của nhạc Pop hoặc Rock sẽ có số đỉnh rội (có biên độ lớn) í hơn nhưng các đỉnh này sẽ cao hơn so với biểu đồ về cao độ của nhạc Jazz hoặc Classical. Hiện nay, nhiều nghiên cứu đưa ra huậ oán và phương hức ước lượng cao độ. Các huậ oán ước lượng này hầu hế dựa vào phương pháp ự ương quan hoặc biến hể của nó. Trong nghiên cứu của chúng ôi, ập đặc rưng về cao độ được rú rích ừ ín hiệu audio dựa rên huậ oán dò ìm cao độ đề xuấ bởi Tolonen và Karjalainen [16]. Để xác định các đặc rưng về cao độ, ín hiệu audio X được chia nhỏ hành các ín hiệu hành phần Xi bởi cửa sổ phân ích có kích hước 512 mẫu với ần số lấy mẫu là 22050 Hz (xấp xỉ 23ms). Các bước rú rích đặc rưng về cao độ áp dụng đối với mỗi Xi được biểu diễn rong Hình 6. Tín hiệu Highpass HWR audio 1KHz Lowpass filering ACF high Xi SACF x high Lowpass 1KHz HWR x low ACF low Hình 6. Sơ đồ rú rích đặc rưng về cao độ Trong huậ oán này, ín hiệu audio Xi được phân ích hành 2 băng ần rên và dưới 1000 Hz kèm heo biên độ được rú rích đối với mỗi băng ần. Việc xử lý các ín hiệu hành phần được hực hiện bởi HWR (Half wave recificaion) và lọc Lowpass đối với băng ần cao. Sau đó, hàm ự ương quan ương ứng với 2 ín hiệu hành phần (x high và x low ) được xác định ương ự với phương pháp dò ìm nhịp điệu. Kế quả hai hàm ự ương quan ACF high và ACF low được ạo ra. Hai hàm này được ổng hợp lại ạo hành hàm ự ương quan ổng hợp SACF (Summary auocorrelaion funcion). Ba đỉnh cao nhấ (có biên độ lớn nhấ) của hàm SACF được chọn để đưa vào biểu đồ cao độ (Pich Hisogram - PH). Quá rình này được áp dụng lặp đi lặp lại rên các ín hiệu hành phần Xi và ích lũy vào rong biểu đồ cao độ PH. Tập hợp ba đỉnh cao nhấ của mỗi SACF ạo hành PH đối với ín hiệu audio. Trong đó, các đỉnh cao nhấ của mỗi SACF ương ứng với các cao độ chính đối với đoạn âm hanh đó. Từ biểu đồ cao độ PH, hai kiểu biểu đồ cao độ được ạo ra: UPH (Unfolded Pich Hisogram) chứa các hông in về pich range và FPH (Folded Pich Hisogram) chứa các hông in về các pich class hoặc hoà âm của bản nhạc. Chi iế về phương pháp ạo UPH và FPH được mô ả rong [16]. Xác định các đặc rưng về cao độ: Dựa vào UPH và FPH, các đặc rưng về cao độ được xác định để cung cấp các hông in có ích cho việc phân loại nhạc heo hể loại. Gọi Đ1_U, Đ2_U: đỉnh cao nhấ và nhì ương ứng rong UPH; Đ1_F, Đ2_F: đỉnh cao nhấ và nhì ương ứng rong FPH. Vecơ đặc rưng về cao độ là mộ vecơ 5 chiều gồm các đặc rưng: 1. FA0: Biên độ của Đ1_F ương ứng với pich class cao nhấ của bản nhạc (ương ứng với âm chủ). 2. UP0: Chu kỳ của Đ1_U. Đặc rưng này ương ứng với vùng bá độ của pich cao nhấ rong bản nhạc. 3. FP0: Chu kỳ của Đ1_F. Đặc rưng này ương ứng với pich class chính của bản nhạc. 4. IPO1: Quãng cao độ giữa 2 đỉnh Đ1_F và Đ2_F. 5. FAVG: Trung bình biên độ của các pich rong FPH. Đặc rưng này là biên độ rung bình của các pich.

Phan Anh Cang, Phan Thượng Cang 527 IV. XÂY DỰG HỆ THỐG PHÂ LOẠI HẠC THEO THỂ LOẠI 4.1. Tập dữ liệu dùng cho huấn luyện và kiểm ra Trong nghiên cứu này, chúng ôi sử dụng nguồn dữ liệu cho huấn luyện và kiểm ra là bộ sưu ập nhạc GTZA [15] gồm 10 hể loại nhạc vì nó được sử dụng phổ biến như mộ bộ sưu ập nhạc ham khảo chuẩn cho các nghiên cứu về phân loại nhạc heo hể loại. Dựa rên cấu rúc phân loại âm hanh của bộ sưu ập nhạc GTZA, bốn hể loại nhạc Classical, Rock, Jazz, Pop được chọn ngẫu nhiên để minh hoạ cho hệ hống phân loại nhạc heo hể loại. Trong phương pháp của chúng ôi, nguồn dữ liệu được chia hành 2 ập dữ liệu: huấn luyện và kiểm ra. Tập file audio huấn luyện được sử dụng để huấn luyện cho bộ phân loại K để đưa ra các quyế định cho hệ hống phân loại nhạc rong khi ập file audio kiểm ra sẽ được sử dụng để đánh giá hiệu quả của phương pháp đề xuấ. Các file này được chọn ngẫu nhiên ừ bộ sưu ập GTZA. Mỗi file audio có độ dài 30s với ần số 22050 Hz Mono 16-bi ở định dạng.wav. Số file audio sử dụng rong ập huấn luyện và kiểm ra ương ứng ừng hể loại được rình bày rong Bảng 1. Bảng 1. Số lượng ập in audio dùng cho huấn luyện và kiểm ra STT Tên hể loại Số lượng ập in audio Huấn luyện Kiểm ra 1 Classical 150 197 2 Rock 58 74 3 Jazz 81 104 4 Pop 90 93 CỘG 379 468 4.2. Mô hình ổng quá hệ hống phân loại nhạc heo hể loại Chúng ôi đề xuấ hệ hống phân loại nhạc heo hể loại gồm 2 pha: rú rích đặc rưng và huấn luyện hoặc phân loại. Kế quả sau khi rú rích đặc rưng của ín hiệu audio là mộ ập gồm các đặc rưng về âm sắc, nhịp điệu, cao độ. Chi iế việc rú rích đặc rưng được rình bày rong phần III. Chúng ôi sử dụng phương pháp biến đổi wavele rời rạc (DWT) để rú rích đặc rưng về nhịp điệu. Phương pháp phân loại K được sử dụng để nhận dạng các hể loại nhạc (rình bày chi iế rong phần 2.2). Quá rình huấn luyện bao gồm việc sử dụng các vecơ đặc rưng đã được gán nhãn hể loại để huấn luyện cho bộ phân loại K. Từ đó, bộ phân loại sẽ gán nhãn hể loại cho các vecơ đặc rưng mới mộ cách ự động. Mô hình ổng quá hệ hống phân loại nhạc heo hể loại được minh hoạ rong Hình 7. Huấn luyện Cơ sở dữ liệu nhạc Rú rích đặc rưng Vecơ đặc rưng: - Âm sắc - hịp điệu / iế ấu - Cao độ Cơ sở dữ liệu vecơ đặc rưng Kiểm ra Tín hiệu audio Rú rích đặc rưng Vecơ đặc rưng: - Âm sắc - hịp điệu / iế ấu - Cao độ Huấn luyện, nhận dạng (Bộ phân loại K) Thể loại nhạc: - Classical - Rock - Jazz - Pop Hình 7. Mô hình ổng quá hệ hống phân loại nhạc heo hể loại Tập các đặc rưng sử dụng cho hệ hống phân loại nhạc rong nghiên cứu này bao gồm các đặc rưng sau đây: - Các đặc rưng về âm sắc: Gồm 19 đặc rưng: Trung bình và phương sai của Cenroid, Rolloff, Flux, ZeroCrossing (8), LowEnergy (1); Trung bình và phương sai của 5 hệ số MFC đầu iên (10). - Các đặc rưng về nhịp điệu / iế ấu: Gồm 6 đặc rưng: A1, A2, RA, P1, P2, SUM được xác định ừ biểu đồ nhịp điệu. - Các đặc rưng về cao độ: Gồm 5 đặc rưng: FA0, UP0, FP0, IPO1, FAVG được xác định ừ biểu đồ cao độ. 4.3. Ma rận đánh giá độ chính xác phân loại Việc đánh giá phương pháp đề xuấ được hực hiện bởi các file audio rong ập dữ liệu kiểm ra. Kế quả phân loại của hệ hống sẽ được rình bày rong ma rận đánh giá độ chính xác phân loại như Bảng 2.

528 PHÂ LOẠI HẠC THEO THỂ LOẠI DÙG PHÉP BIẾ ĐỔI WAVELET RỜI RẠC Bảng 2. Ma rận đánh giá độ chính xác phân loại Thể loại hực ế Thể loại Thể loại iên đoán (Kế quả iên đoán ừ hệ hống đề xuấ) Classical Rock Jazz Pop Tổng cộng Classical C C1 C2 C3 197 Rock R1 R R2 R3 74 Jazz J1 J2 J J3 104 Pop P1 P2 P3 P 93 Trong ma rận này, các giá rị rong ma rận là số lượng ập in audio rong ập dữ liệu kiểm ra. Các phần ử rong ma rận được giải hích như sau: - C, R, J, P: số iên đoán đúng đối với các file nhạc có nhãn hể loại Classical, Rock, Jazz, Pop ương ứng. - Ci, Ri, Ji, Pi (i = 1,..,4): số iên đoán sai đối với các file nhạc được gán nhãn hể loại Classical, Rock, Jazz, Pop ương ứng. hư vậy, dòng ương ứng với hể loại hậ sự của các file nhạc và cộ ương ứng với hể loại iên đoán của các file nhạc sau khi hệ hống đề xuấ hực hiện phân loại. Số ập in nhạc được gán nhãn hể loại đúng nằm rên đường chéo của ma rận (các giá rị in đậm: C, R, J, P). Để đánh giá hiệu quả của phương pháp đề xuấ, độ chính xác phân loại A (Accuracy) được sử dụng và được xác định bởi công hức (14): C R J P A(%) x100% 4 ( C R J P) Ci Ri Ji Pi i1 V. KẾT QUẢ Phương pháp của chúng ôi được hực hiện rong môi rường Visual C++ rên máy ính PC 2.27GHz CPU Core i5 với 3GB Ram để hực hiện cài đặ hệ hống phân loại nhạc heo hể loại. Các kế quả rong nghiên cứu này sẽ sử dụng hai ập dữ liệu huấn luyện (379 files audio) và kiểm ra (468 files audio) ương ứng với 4 hể loại Classical, Rock, Jazz, Pop. Các file này được chọn ngẫu nhiên ừ bộ sưu ập GTZA. Để đánh giá độ chính xác phân loại của phương pháp đề xuấ, chúng ôi sử dụng ma rận đánh giá độ chính xác phân loại như Bảng 2. Việc phân loại nhạc được hực hiện chủ yếu dựa vào 3 ập đặc rưng được rú rích ừ ín hiệu audio như sau: - Tập đặc rưng 1 (ĐT1): 19 đặc rưng về âm sắc. - Tập đặc rưng 2 (ĐT2): 6 đặc rưng về nhịp điệu. - Tập đặc rưng 3 (ĐT3): 5 đặc rưng về cao độ. Chúng ôi kiểm ra rên hệ hống với việc rú rích đặc rưng dựa rên mộ rong các ập đặc rưng rên hoặc kế hợp chúng với nhau và sau đó ìm giá rị ham số k (số láng giềng gần nhấ) sao cho hệ hống đạ hiệu quả về độ chính xác phân loại cao nhấ. Sau đây là các kế quả hực nghiệm rên hệ hống rong mộ số rường hợp: 5.1. Phân loại dựa rên 1 hoặc 2 ập đặc rưng Chúng ôi hực nghiệm rên hệ hống với việc phân loại dựa rên chỉ mộ hoặc 2 ập đặc rưng. Chúng ôi cũng kiểm ra rên 1 số giá rị ham số k (k = 3,, 7). Trong đó, với giá rị k = 4, hệ hống cho kế quả phân loại ố nhấ. Vì vậy, chúng ôi chọn rình bày rong rường hợp này. Sau đây là kế quả đánh giá độ chính xác của việc phân loại. (14) Bảng 3. Độ chính xác phân loại dựa rên 1 ập đặc rưng với giá rị ham số k = 4 Tập các đặc rưng ĐT1 (âm sắc) ĐT2 (nhịp điệu) ĐT3 (cao độ) A (%) 75,2% 63% 59,6% Bảng 4. Độ chính xác phân loại dựa rên 2 ập đặc rưng với giá rị ham số k = 4 Tập các đặc rưng ĐT1 và ĐT2 ĐT1 và ĐT3 ĐT2 và ĐT3 A (%) 79,7% 79,5% 63,5% Từ kế quả rình bày rong Bảng 3 và Bảng 4, chúng ôi nhận xé: ếu chúng ôi chỉ sử dụng 1 hoặc 2 ập đặc rưng hì việc phân loại nhạc heo hể loại ừ ín hiệu audio đạ độ chính xác hấp. Kế quả này khó có hể chấp nhận được. Vì vậy, chúng ôi iếp ục kiểm ra rên hệ hống mà rong đó sử dụng cả 3 ập đặc rưng 1, 2 và 3 rong việc phân loại nhạc (ạo nên mộ vecơ đặc rưng 30 chiều) với mong muốn làm ăng độ chính xác của việc phân loại.

Phan Anh Cang, Phan Thượng Cang 529 5.2. Phân loại dựa rên cả 3 ập đặc rưng Chúng ôi hực nghiệm rên hệ hống với việc phân loại dựa rên cả 3 ập đặc rưng: âm sắc, nhịp điệu và cao độ. Từ Bảng 5, chúng ôi nhận hấy kế quả phân loại của hệ hống dựa rên cả 3 ập đặc rưng với giá rị ham số k = 4 như sau: ổng số file audio kiểm ra: 468, số rường hợp hệ hống iên đoán đúng: 391 (A=83,5%), số rường hợp iên đoán sai: 77 (16,5%). Chúng ôi cũng kiểm ra rên 1 số giá rị k khác nhau (k=3,5,6,7). Hình 8 biểu diễn độ chính xác phân loại sử dụng cả 3 Bảng 5. Ma rận đánh giá độ chính xác phân loại dùng cả 3 ập đặc rưng với k = 4 Classical Rock Jazz Pop Classical 195 2 0 0 Rock 6 58 9 1 Jazz 23 10 59 12 Pop 1 4 9 79 ập đặc rưng với các giá rị k khác nhau, rong đó hệ hống cho kế quả phân loại ố nhấ với k = 4. guyên nhân là với k = 4 hệ hống phân loại nhạc heo hể loại đề xuấ đạ độ chính xác là: 83,5%. Với các giá rị khác của k, kế quả độ chính xác phân loại hấp hơn. Chẳng hạn: k = 3 độ chính xác chỉ đạ 80,3%. 84 83 82 % 81 80 79 78 80.3 83.5 81.4 80.8 3 4 5 6 7 k 81.4 Hình 8. Đồ hị biểu diễn độ chính xác phân loại sử dụng kế hợp cả 3 ập đặc rưng Hình 9. Đồ hị biểu diễn độ chính xác rung bình phân loại nhạc dựa vào các ập đặc rưng Từ các kế quả hực nghiệm rên ập dữ liệu kiểm ra biểu diễn rong Hình 9 cho hấy: nếu hệ hống chỉ sử dụng mộ rong 3 ập đặc rưng về âm sắc, nhịp điệu hoặc cao độ, hì việc phân loại nhạc heo hể loại ừ ín hiệu audio được hực hiện nhanh hơn (hời gian hực hiện rung bình là 30,7 giây) do số chiều của vecơ đặc rưng nhỏ hơn, nhưng độ chính xác của việc phân loại sẽ hấp hơn (đạ khoảng 60,2% - 74,6%) so với rường hợp phân loại nhạc dựa rên cả 3 ập đặc rưng này. Tương ự, nếu hệ hống phân loại chỉ dựa rên việc kế hợp 2 ập đặc rưng: âm sắc và nhịp điệu; âm sắc và cao độ; nhịp điệu và cao độ hì cũng cho kế quả hời gian hực hiện nhanh hơn (rung bình là 63,1giây), rong khi kế quả độ chính xác của việc phân loại hấp hơn (đạ 64,1% - 79,8%) so với kế quả phân loại rong rường hợp hệ hống sử dụng kế hợp cả 3 ập đặc rưng với độ chính xác phân loại rung bình 81,5% và hời gian hực hiện rung bình là 97,4 giây. Vì vậy, việc sử dụng kế hợp cả 3 ập đặc rưng âm sắc, nhịp điệu, cao độ là rấ cần hiế đối với hệ hống phân loại nhạc heo hể loại vì nó cho kế quả phân loại khá chính xác. hư vậy, phương pháp đề xuấ của chúng ôi là kế hợp cả 3 ập đặc rưng âm sắc, nhịp điệu và cao độ rong việc phân loại nhạc heo hể loại bởi vì hệ hống đưa ra kế quả phân loại với độ chính xác cao (rung bình 81,5%). Kế quả của phương pháp đề xuấ này là ố hơn so với mộ số phương pháp đã nghiên cứu rước đây với độ chính xác rung bình dưới 80%. Chẳng hạn, rong nghiên cứu của Marco Grimaldi e al. [17] sử dụng 182 file nhạc với 7 hể loại khác nhau để kiểm ra hệ hống cho kế quả độ chính xác phân loại là 52,75% rong rường hợp dùng phép biến đổi wavele rời rạc và kỹ huậ phân loại K. Phương pháp đề xuấ cũng có kế quả ố hơn so với phương pháp của Panagakis e al. [18] vì độ chính xác phân loại đạ 78,2%, 77,9% và 75,01% khi rú rích các ập đặc rưng khác nhau ừ cùng bộ sưu ập nhạc GTZA với bộ phân loại SVM. Mặ khác, kế quả nghiên cứu của chúng ôi cũng có độ chính xác phân loại cao hơn so với phương pháp đề xuấ bởi Tao e al. [19] vì độ chính xác phân loại đạ 78,6% hực hiện rên cùng ập dữ liệu GTZA và máy học SVM. Bên cạnh đó, Chahuranga e al. [6] đã đề xuấ phương pháp phân loại nhạc heo hể loại với iếp cận máy học SVM. Kế quả phân loại đạ độ chính xác hấp hơn phương pháp đề xuấ vì nó chỉ đạ 78% khi hực hiện rên ập dữ liệu GTZA. VI. KẾT LUẬ Mộ phương pháp phân loại nhạc heo hể loại nhanh và chính xác là rấ cần hiế đối với các hệ hống quản lý mộ số lượng lớn nhạc số. Tuy nhiên, đây là mộ công việc không đơn giản vì các hể loại nhạc vẫn còn là mộ khái niệm mở, ùy huộc vào ý kiến chủ quan của con người. Trong nghiên cứu hực nghiệm này, chúng ôi đề xuấ sử dụng các ập đặc rưng được rú rích bởi các công cụ STFT, DWT và bộ phân loại K. DWT là mộ kỹ huậ phân ích ín hiệu, cung cấp mộ cách biểu diễn ín hiệu rong miền hời gian và ần số dưới dạng nén làm cho việc ính oán nhanh và hiệu quả. ghiên cứu này ập rung vào việc phân loại 4 hể loại nhạc: Classical, Rock, Jazz và Pop bằng cách sử

530 PHÂ LOẠI HẠC THEO THỂ LOẠI DÙG PHÉP BIẾ ĐỔI WAVELET RỜI RẠC dụng kế hợp cả 3 ập đặc rưng về âm sắc, nhịp điệu và cao độ ạo nên mộ vecơ đặc rưng 30 chiều. Tập dữ liệu được sử dụng rong nghiên cứu này lấy ừ bộ sưu ập nhạc GTZA. Dựa rên các kế quả hực nghiệm, phương pháp đề xuấ của chúng ôi đạ độ chính xác rung bình 81,5%. Kế quả nghiên cứu này cho độ chính xác phân loại cao hơn mộ số nghiên cứu rước đó mà chỉ đạ độ chính xác dưới 80%. Việc phân loại nhạc heo hể loại được hực hiện mộ cách ự động bằng máy ính và cho kế quả khá chính xác là hoàn oàn có hể. ghiên cứu này cung cấp cơ sở khoa học cho phá riển các hệ hống: ruy vấn hông in nhạc dựa vào nội dung, phá hiện sao chép bản quyền nhạc, ìm các bản nhạc có các đặc rưng gần giống với các đặc rưng mà người sử dụng mong muốn, phân ích nhạc và lời bài há, phân loại bản nhạc heo ca sĩ - nhạc sĩ, chú hích ự động các ập in nhạc với những mô ả,... Phương pháp đề xuấ có hể áp dụng mở rộng rên các hể loại nhạc khác: Opera, Rap, Blues, Counry, Hip Hop, goài ra, nó có hể áp dụng cho việc phân loại nhạc ruyền hống của Việ am như: dân ca Bắc bộ, dân ca am bộ, Chèo, Bội, Cải lương. Hệ hống đề xuấ cũng có hể áp dụng với các bộ phân loại kế hợp khác như: SVM, Gaussian, mạng eural, Chúng ôi dự định hực nghiệm hệ hống đề xuấ rên mộ ập dữ liệu lớn (Big Daa); nghiên cứu và sử dụng các đặc rưng mới để có hể rích xuấ các hông in âm nhạc có ý nghĩa ừ các ín hiệu âm hanh. Đó chính là những hướng nghiên cứu của chúng ôi rong hời gian sắp ới. VII. TÀI LIỆU THAM KHẢO [1] Anan, Yoko, Haano, Kohei, Bannai, Hideo, and Takeda, Masayuki, Music Genre Classificaion Using Similariy Funcions, Proceedings of he 12h Inernaional Sociey for Music Informaion Rerieval Conference (Miami (Florida), USA, pp. 693-698, 2011. [2] Cosa, Y. M. G., Oliveira, L. S., Koericb, A. L., and Gouyon, F., Music genre recogniion using specrograms, 18h Inernaional Conference on Sysems, Signals and Image Processing (IWSSIP), pp. 1-4, 2011. [3] Jang, Dalwon, Jin, Minho, and Yoo, Chang Dong, Music genre classificaion using novel feaures and a weighed voing mehod, Proceedings of Inernaional Conference on Mulimedia and Expo, Hannover, Germany, pp. 1377-1380, 2008. [4] Masui, Tomoko, Goo, Masaaka, Ver, Jean-Philippe, and Uchiyama, Yuji, Gradien-based musical feaure exracion based on scale-invarian feaure ransform". EUSIPCO, IEEE, pp. 724-728, 2011. [5] Mckay, Cory, Burgoyne, John Ashley, Hockman, Jason, Smih, Jordan B.L., Vigliensoni, Gabriel, and Fujinaga, Ichiro, Evaluaing he Genre Classificaion Performance of Lyrical Feaures Relaive o Audio, Symbolic and Culural Feaures, Proceedings of he 11h Inernaional Sociey for Music Informaion Rerieval Conference (Urech, The eherlands Augus 9-13 2010), pp. 213-218, 2010. [6] Chahuranga, Dhanih and Jayarane, Lakshman, Auomaic Music Genre Classificaion of Audio Signals wih Machine Learning Approaches, GSTF Journal on Compuing (JoC), Vol. 3, o. 2, pp. 1-12, 2013. [7] Rini Wongso, Diaz D. Sanika, Auomaic music genre classificaion using dual ree complex wavele ransform and suppor vecor machine, Journal of Theoreical and Applied Informaion Technology, Vol. 63, o. 1, pp. 61-68, 2014. [8] Malla, S. G., A Theory for Muliresoluion Signal Decomposiion: The Wavele Represenaion, IEEE Trans. Paern Anal. Mach. Inell., Vol. 11, pp. 674-693, 1989. [9] Daubechies, Ingrid, Orhonormal bases of compacly suppored waveles, Journal of Communicaions on Pure and Applied Mahemaics, Vol. 41, o. 7, pp. 909-996, 1988. [10] Alman,. S., An Inroducion o Kernel and eares-eighbor onparameric Regression, he American Saisician, Vol. 46, o. 3, pp. 175-185, 1992. [11] Theodoridis, Sergios and Kouroumbas, Konsaninos, Paern Recogniion, Third Ediion, Academic Press, Inc., Orlando, FL, USA, 2006. [12] Logan, Beh. Mel Frequency Cepsral Coefficiens for Music Modeling, Proceedings of he 1s Inernaional Conference on Music Informaion Rerieval (Plymouh (Massachuses), USA Ocober 23, 2000. [13] Li, Tao and Tzaneakis, G., Facors in auomaic musical genre classificaion of audio signals, Applicaions of Signal Processing o Audio and Acousics, IEEE Workshop, pp. 143-146, 2003. [14] Caalepe, Zehra, Yaslan, Yusuf, and Sonmez, Abdullah, Music Genre Classificaion Using MIDI and Audio Feaures, EURASIP Journal on Advances in Signal Processing, Vol. 1, pp. 1-8, 2007. [15] Tzaneakis, George, Essl, Georg, and Cook, Perry, Auomaic Musical Genre Classificaion of Audio Signals, Proceedings of he 2nd Annual Inernaional Symposium on Music Informaion Rerieval (Bloomingon (Indiana), USA, pp. 205-210, 2001. [16] Tolonen, Tero and Karjalainen, Mai. A compuaionally efficien mulipich analysis model, IEEE Trans. Speech and Audio Processing, Vol. 8, o. 6, pp. 708-716, 2000. [17] Grimaldi, Marco, Kokaram, Anil, and Cunningham, Pádraig, Classifying music by genre using a discree wavele ransform and a round-robin ensemble, Compuer Science Dep, Triniy College Dublin, Ireland, 2003. [18] Panagakis, Ioannis, Beneos, Emmanouil, and Koropoulos, Consanine, Music Genre Classificaion: A Mulilinear Approach, Proceedings of he 9h Inernaional Conference on Music Informaion Rerieval, pp. 583-588, 2008.

Phan Anh Cang, Phan Thượng Cang 531 [19] Ran Tao, Zhenyang Li, Ye Ji, Music genre classificaion using emporal informaion and suppor vecor machine, ASCI Conference, Vol. 77, 2010. MUSIC CLASSIFICATIO BY GERE USIG DISCRETE WAVELET TRASFORM Phan Anh Cang, Phan Thượng Cang ABSTRACT As he demand for mulimedia grows, he developmen of musical genre classificaion sysems including informaion abou musical genre is of increasing concern. However, due o he collecion of audio files from various sources, he musical genre classificaion based on informaion recorded on file may encouner limiaions. To auomae searching, organizing and classifying a huge number of audio files based on heir genre is a challenging ask. In his paper, we presen an approach o idenifying musical genres based on heir conen including hree feaure ses for represening imbral exure, rhyhmic conen and pich conen. We apply he discree wavele ransform for decomposing audio signals o deermine heir rhyhmical feaures. Our mehod is applied o idenify four musical genres including Classical, Rock, Jazz and Pop. I can be exended o applicaions relaed o he differen musical genres or he music informaion rerieval sysems, he music copyrigh maching sysems, We presen experimenal resuls ha show ha our approach is effecive in idenifying he musical genre of he audio file wih accepable level of confidence.