Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại

Bài báo giới thiệu hệ thống EDUvoice - ứng dụng trong các hệ hỏi đáp thông tin qua mạng điện thoại (PSTN). Hệ thống có thể hiểu được các câu lệnh tiếng nói của người dùng, giúp cho việc tra cứu thông tin đào tạo tại khoa CNTT trường đại học Nông Lâm bằng tiếng nói tiếng Việt thông qua mạng điện thoại.

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 1

Trang 1

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 2

Trang 2

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 3

Trang 3

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 4

Trang 4

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 5

Trang 5

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 6

Trang 6

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại trang 7

Trang 7

pdf 7 trang Danh Thịnh 10/01/2024 2820
Bạn đang xem tài liệu "Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại

Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại
Hệ thống tra cứu thông tin đào tạo tín chỉ 
qua mạng điện thoại 
Trần Khải Thiện1, Vũ Thanh Hiền5 
Khoa CNTT - Đại học Ngoại Ngữ Tin Học 
TP.HCM 
TP.HCM, Việt Nam 
thientk@gmail.com 
Trần Khải Cát Tiên2, Mai Anh Thơ3, 
Nguyễn Minh Nhật4 
Khoa CNTT - Đại học Nông Lâm TP.HCM 
TP.HCM, Việt Nam 
cattientk@gmail.com
Tóm tắt—Bài báo giới thiệu hệ thống EDUvoice - ứng 
dụng trong các hệ hỏi đáp thông tin qua mạng điện thoại 
(PSTN). Hệ thống có thể hiểu được các câu lệnh tiếng nói 
của người dùng, giúp cho việc tra cứu thông tin đào tạo tại 
khoa CNTT trường đại học Nông Lâm bằng tiếng nói 
tiếng Việt thông qua mạng điện thoại. Điểm đặc biệt của 
hệ thống là có khả năng phân tích cú pháp và ngữ nghĩa 
của các câu lệnh tiếng nói sau khi được nhận dạng bởi 
thành phần nhận dạng tiếng nói. EDUvoice bao gồm các 
thành phần chính như sau: thành phần giao tiếp mạng 
điện thoại; thành phần nhận dạng tiếng nói tiếng Việt; 
thành phần xử lý ngôn ngữ tự nhiên và thành phần tổng 
hợp tiếng nói tiếng Việt. Theo hiểu biết của chúng tôi, đây 
là một trong những hệ thống đầu tiên tại Việt Nam thực 
hiện việc tích hợp cơ chế xử lý ngôn ngữ tự nhiên vào các 
ứng dụng tiếng nói. Điều này giúp cho các ứng dụng tiếng 
nói trở lên thông minh hơn, có thể giao tiếp với con người 
bằng ngôn ngữ tự nhiên với độ chính xác cao và tốc độ xử 
lý nhanh. Hệ thống qua thực nghiệm đạt độ chính xác cao 
và thân thiện với người dùng là minh chứng rõ nét cho 
tính thực tế của nghiên cứu. 
Từ khóa—Spoken Dialog Systems, Natural Language 
Processing, Voice Server, EDUvoice. 
I. GIỚI THIỆU 
Trên thế giới, từ những năm 1960 -1970 đã xuất hiện 
những nghiên cứu về các hệ giao tiếp bằng tiếng nói 
(Spoken Dialog Systems) điển hình như ELIZA [18] và 
SHRDLU [19]. Nhưng phải đến những năm 1990 thì 
các hệ giao tiếp bằng tiếng nói mới thật sự phát huy tính 
ứng dụng cao bởi sự tích hợp với các hệ thống tương tác 
qua điện thoại (Telephone IVR Systems) như TRAIN 
[15], RAILTEL [2], và hiện nay IBM Watson, SIRI và 
trợ lý ảo Cortana đang là những sản phẩm ưu tú nhất 
của ứng dụng tiếng nói. 
Ở Việt Nam, trong những năm vừa qua, các nghiên cứu 
về công nghệ xử lý tiếng nói cũng đã thu được những 
kết quả đáng khích lệ. Hai nội dung nghiên cứu chính 
của công nghệ này bao gồm Nhận dạng tiếng nói và 
Tổng hợp tiếng nói đã và đang được 2 nhóm nghiên cứu 
chính là Viện Công nghệ thông tin (Viện Khoa học và 
Công nghệ Việt Nam) và trường Đại học Khoa học tự 
nhiên (ĐHQG-HCM) thực hiện và cho ra nhiều công bố 
được đánh giá cao [3], [5], [7], [10], [16]. Tuy nhiên, 
những kết quả nghiên cứu nói trên chỉ tập trung vào 
việc nâng cao hiệu quả xử lý tiếng nói tiếng Việt mà 
chưa quan tâm đến vấn đề xử lý ngữ nghĩa của các câu 
lệnh tiếng nói. 
EDUvoice là hệ thống voice server được xây dựng dựa 
trên sự kết hợp giữa xử lý ngôn ngữ nói và ngôn ngữ 
viết, hệ thống có thể nhận dạng nhiều dạng câu lệnh 
bằng tiếng nói tiếng Việt để chuyển thành dạng văn bản, 
kế tiếp xử lý cú pháp và ngữ nghĩa của chúng, rồi phát 
sinh các truy vấn cơ sở dữ liệu, cuối cùng là trả lời cho 
người dùng với những dữ liệu đã truy vấn được bằng 
giọng đọc tiếng Việt. Việc xử lý cú pháp và ngữ nghĩa 
của các câu lệnh trong hệ thống được giải quyết với 
DCG (Definite Clause Grammar) [4]. Trong phần xử lý 
tiếng nói, chúng tôi sử dụng công cụ HTK (Hidden 
Markov Model Toolkit) [14] cho việc nhận dạng tiếng 
nói và áp dụng phương pháp Unit-selection [1] cho việc 
tổng hợp tiếng nói. 
Hình 1. Hệ thống EDUvoice 
 Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 
ISBN: 978-604-67-0349-5 458
II. KIẾN TRÚC HỆ THỐNG 
Hệ thống được thiết kế có chức năng như sau: Nhận 
dạng câu truy vấn qua điện thoại; xử lý câu truy vấn; 
tiến hành truy xuất thông tin trong cơ sở dữ liệu; trả lời 
lại cho người dùng qua điện thoại và được thực hiện 
theo kịch bản sau: 
(0) Trạng thái chờ 
(1) User gọi vào hệ thống và hỏi bằng tiếng Việt 
(2) Hệ thống xác nhận user nội dung vừa hỏi 
(2.0) Nếu user xác nhận đúng, hệ thống tiếp tục 
xử lý bước (3) 
(2.1) Nếu user xác nhận sai, hệ thống quay về 
trạng thái chờ (0) 
(3) Tiếng nói được đưa qua bộ nhận dạng và 
chuyển thành câu truy vấn dạng văn bản tiếng 
Việt 
(4) Hệ thống phân tích cú pháp và xử lý ngữ nghĩa 
câu truy vấn 
(4.0) Nếu câu truy vấn đúng cú pháp 
- Hệ thống thực hiện việc truy vấn cơ sở 
dữ liệu và trả kết quả bằng tiếng nói 
đến người dùng 
- Kết thúc và quay về bước (0) 
(4.1) eNgược lại, nếu là câu truy vấn sai cú 
pháp thì hệ thống sẽ thông báo bằng tiếng 
nói lại cho user để thực hiện lại câu truy 
vấn. 
Hình 2. Mô phỏng kịch bản hoạt động 
Để hiện thực các chức năng nói trên, hệ thống cần có 
những thành phần sau (Hình 3): 
A. Bộ nhận dạng tiếng nói: chuyển dữ liệu âm thanh là 
tiếng nói của người dùng thành dữ liệu văn bản. 
B. Bộ xử lý ngôn ngữ tiếng Việt: xử lý cú pháp, ngữ 
nghĩa của các câu truy vấn của người dùng. 
C. Bộ xử lý trung tâm: kết nối các thành phần trong hệ 
thống thông qua việc: 
1. Chuyển dữ liệu văn bản từ bộ nhận dạng tiếng nói 
thành dạng dữ liệu chuẩn thực thi tập tin Prolog 
trong bộ xử lý ngôn ngữ. 
2. Chuyển đổi những biểu diễn ngữ nghĩa của các 
câu truy vấn thành tập những câu lệnh truy xuất đến 
cơ sở dữ liệu, đồng thời thực thi chúng. 
3. Lọc, sắp xếp và trả về kết quả xử lý của hệ thống 
cho người dùng. 
D. Cơ sở dữ liệu: chứa thông tin đào tạo tín chỉ. 
E. Bộ tổng hợp tiếng nói tiếng Việt: chuyển dữ liệu văn 
bản thành tiếng nói. 
Hình 3. Kiến trúc hệ thống 
III. MÔ-ĐUN GIAO TIẾP 
Nhiệm vụ của mô-đun này là giao tiếp máy tính 
và hệ thống điện thoại. Ngoài ra, mô-đun giao tiếp còn 
tiếp nhận, xử lý tín hiệu đến từ điện thoại và trả lời 
thông tin từ máy tính trở lại hệ thống điện thoại. 
Về phần cứng, chúng tôi sử dụng modem Intel® 
536EP Modem của Intel. Modem kết nối trực tiếp với 
line điện thoại và máy tính, làm cầu nối trung gian 
truyền tả ... ợc chính xác. 
A. Các bước xây dựng bộ nhận dạng tiếng nói 
Việc xây dựng một hệ nhận dạng tiếng nói gồm có hai 
giai đoạn chính: 
1) Giai đoạn huấn luyện: 
a) Chuẩn bị tập dữ liệu tiếng nói cần huấn luyện 
và mã hóa tập dữ liệu này. 
b) Gán nhãn, lập từ điển. 
c) Tạo các mô hình HMM (prototype HMM) cho 
mỗi đơn vị phone. 
Đầu ra của giai đoạn huấn luyện là tập các mô hình 
HMM đã được huấn luyện (hmmset). 
2) Giai đoạn nhận dạng: 
a) Tập các mô hình HMM đã được huấn luyện 
(hmmset) - là kết quả của giai đoạn huấn luyện. 
b) Xây dựng văn phạm. 
c) Trích đặc trưng cho chuỗi âm thanh cần nhận 
dạng. 
Đầu ra của giai đoạn nhận dạng là chuỗi văn bản. 
Hình 5. Sơ đồ các công đoạn xây dựng bộ nhận dạng tiếng nói sử 
dụng HTK [17] 
B. Dữ liệu huấn luyện 
Tập dữ liệu huấn luyện được thu âm trong 160 phút 
với 2429 mẫu câu. Dữ liệu này được lấy mẫu ở mức 
8000 Hz, 16 bit theo định dạng PCM trong điều kiện 
môi trường ít tiếng ồn với 7 giọng đọc của nam. 
Bảng 1. BỘ TỪ VỰNG GỒM 68 TIẾNG 
ai bao bản bộ cao 
cơ của dạy giảng gì 
khoa không kế kỳ là 
môn mạng mấy mềm một 
những nào này nâng phân 
thu thuyết thông thơ thầy 
trong trình tích tín tính 
chỉ các có cô công 
hai hành hùng hệ học 
lý lập mi máy mã 
mở nghệ ngành nhiêu nhập 
phí phần phụ quyết thiết 
thống thực tin tiên tiết 
viên và web 
 Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 
ISBN: 978-604-67-0349-5 460
C. Xây dựng văn phạm 
Mô hình ngôn ngữ cung cấp thông tin về cú pháp, 
ngữ nghĩa, trật tự từ của câu. Thành phần này giúp hệ 
thống lựa chọn ra kết quả nhận dạng tốt nhất trong danh 
sách các ứng viên chọn lọc được bởi tiến trình nhận 
dạng. Cấu trúc câu có thể có trong ngữ cảnh của ứng 
dụng. Việc xây dựng mô hình ngôn ngữ bao gồm việc 
xác định văn phạm cho ngôn ngữ đó. Tính phức tạp của 
văn phạm phụ thuộc vào mức độ phức tạp của hệ thống 
cần nhận dạng. Cấu trúc văn phạm là một đồ thị có 
hướng tổng quát, chứa các cấu trúc câu có thể có trong 
ngữ cảnh của ứng dụng. Trong ứng dụng của chúng tôi, 
một phần của tập tin văn phạm (dạng có mã hóa 
TELEX) thể hiện như sau: 
$Khoa = (NGAFNH | KHOA) [COONG NGHEEJ THOONG TIN]; 
$ $Bomon = BOOJ MOON (HEEJ THOOSNG THOONG TIN | 
MAJNG MASY TISNH | COONG NGHEEJ PHAAFN MEEFM); 
$Giangviennao = GIARNG VIEEN | THAAFY COO; 
$sen1 = $Khoa COS $nhungcac BOOJ MOON NAFO ; 
D. Tổng hợp tiếng nói 
Hệ thống tổng hợp tiếng (Text-To-Speech) nói gồm 
02 công đoạn chính là phân tích văn bản (quá trình xử 
lý, chuẩn hóa văn bản đầu vào thành một dạng chuẩn để 
có thể tổng hợp được) và tổng hợp tiếng nói (tạo ra tín 
hiệu tiếng nói từ kết quả của phần phân tích văn bản). 
Việc tổng hợp tiếng nói có thể được thực hiện bằng tổng 
hợp Formant [10] hay phương pháp Unit-selection 
[10], Với EDUvoice, chúng tôi chọn cách tiếp cận 
tổng hợp bằng phương pháp Unit-selection, thực hiện 
theo quy trình theo hình 6. 
Hình 6. Quy trình tổng hợp bằng phương pháp ghép nối chọn đơn 
vị [10] 
V. XỬ LÝ NGÔN NGỮ TIẾNG VIỆT 
A. Cú pháp câu lệnh truy vấn 
Trong hệ thống của chúng tôi có tất cả 48 dạng câu 
truy vấn và được chia thành 6 chủ đề, một số dạng câu 
tiêu biểu được trình bày trong bảng 2. 
Bảng 2. MỘT SỐ DẠNG CÂU TRUY VẤN PHÂN THEO 
CHỦ ĐỀ 
STT Chủ đề Dạng câu truy vấn 
1 Khoa – Bộ môn [Ngành] có những bộ môn nào 
2 Bộ môn – Giảng viên có những (giảng viên 
| thầy cô) nào 
3 Môn học – Giảng viên (thầy cô | giảngviên) nào dạy 
 dạy những (môn | 
môn học) nào 
 có dạy <môn 
học> không 
 có những (giáo viên 
| thầy cô | giảngviên) nào dạy 
4 Môn học có mã môn học là gì 
có môn tiên quyết là 
môn nào 
 có bao nhiêu tiết lý 
thuyết 
 có bao nhiêu tiết 
thực hành 
có bao nhiêu tín chỉ 
5 Học phí có học phí là bao 
nhiêu 
6 Phụ thu [Ngành] có không 
[Ngành] có là bao 
nhiêu 
 Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 
ISBN: 978-604-67-0349-5 461
B. Phân tích ngữ nghĩa câu lệnh 
Để biểu diễn ngữ nghĩa cho các câu truy vấn, chúng 
tôi sử dụng DCG [4], có tất cả 17 cấu trúc biểu diễn 
nghĩa cho bởi bảng 3. 
Bảng 3. CÁC CẤU TRÚC BIỂU DIỄN NGHĨA CỦA CÂU 
TRUY VẤN 
STT Chủ đề Cấu trúc nghĩa câu truy vấn 
1 Bộ môn which_depts(Faculty) 
2 Giảng viên which_teachers(Dept) 
which_teachers(Course) 
yesno_teacher(Teacher,Course) 
3 Môn học course(Teacher) 
4 Mã môn học course_id(Course) 
5 Môn tiên quyết prerequisite(Course) 
6 Số tín chỉ credit(Course) 
theory_credit(Course) 
practise_credit(Course) 
7 Số tiết lý thuyết 
– thực hành 
theory(Course) 
practise(Course) 
8 Học phí fee(Course) 
9 Học kỳ yesno_course(Semester,Course) 
yesno_teacher_mon(Teacher,Cours
e,Semester) 
10 Phụ thu yesno_surcharge(Faculty) 
surcharge(Faculty) 
Ví dụ 1: Ngành Công Nghệ Thông Tin có những bộ 
môn nào? 
Luật cú pháp và ngữ nghĩa DCG được định nghĩa như 
sau: 
query(which_depts(Faculty)) --> p_industry, 
n_faculty(Faculty),p_have, p_plural, p_dept, p_which. 
n_ industry -->[ngành]. 
n_faculty(faculty(công, nghệ, thông , tin)) -->[ công, nghệ, thông , 
tin]. 
p_have-->[cos]. 
p_plural-->[những]. 
p_dept-->[bộ,môn]. 
p_which-->[nào]. 
Ta được luật cú pháp và ngữ nghĩa xác định cấu trúc 
nghĩa của câu truy vấn ví dụ 1 như sau: 
which_depts (faculty (công, nghệ, thông , tin)) 
Cấu trúc nghĩa này là cấu trúc nghĩa số 1 mục 1. 
Từ các cấu trúc nghĩa này, chúng tôi tiến hành 
chuyển đổi thành câu lệnh SQL tương ứng để truy xuất 
vào cơ sở dữ liệu. 
VI. THỬ NGHIỆM VÀ ĐÁNH GIÁ 
Việc thử nghiệm trước tiên được tiến hành theo từng 
thành phần của hệ thống; gồm Thành phần Nhận dạng 
tiếng nói, Thành phần Xử lý ngôn ngữ Tiếng Việt và Bộ 
Xử lý trung tâm. Kế đến, chúng tôi tiến hành các thử 
nghiệm trên cả hệ thống, cũng như tiến hành các khảo 
sát về cảm nhận/ đánh giá của người dùng về hệ thống, 
bao gồm thành phần Tổng hợp Tiếng nói. 
A. Thành phần nhận dạng tiếng nói 
Hiệu năng của hệ thống nhận dạng tiếng nói thường 
được đánh giá qua độ đo WER (Word Error Rate), biểu 
diễn bởi công thức sau: WER= (S + D + I) / N x 100%. 
Trong đó, N là tổng số từ, S là số lỗi sửa, I là số lỗi chèn 
và D là số lỗi xóa. 
Ở đây, chúng tôi sử dụng độ đo WAR (Word Accuracy 
Rate) để đánh giá hiệu năng của hệ thống, biểu diễn bởi 
công thức: WAR = (1 – (S + D + I) / N) x 100% 
Hiệu năng hệ thống 
Chúng tôi lần lượt tiến hành các thử nghiệm offline 
được chia theo: khu vực, giới tính, độ tuổi và ngữ liệu 
huấn luyện, độ chính xác của hệ thống cho bởi các bảng 
4, 5, 6 và 7. 
 Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 
ISBN: 978-604-67-0349-5 462
Bảng 4. THỬ NGHIỆM THEO KHU VỰC 
Mô hình Mô tả 
WAR 
Bắc Trun
g 
Nam 
VNSE_ 
A1 
Tập ngữ liệu huấn 
luyện chỉ bao gồm 
các giọng đọc miền 
Bắc 
95% 75% 92% 
Bảng 5. THỬ NGHIỆM THEO GIỚI TÍNH 
Mô hình Mô tả 
WAR 
Nữ Nam 
VNSE_ 
G1 
Tập ngữ liệu huấn 
luyện chỉ bao gồm 
giọng đọc giới tính nam 
87% 96% 
Bảng 6. THỬ NGHIỆM THEO ĐỘ TUỔI 
Mô hình Mô tả 
WAR 
18-30 Khác 
VNSE_D1 Tập ngữ liệu huấn 
luyện gồm giọng đọc 
có độ tuổi 18-30 
93,73% 91% 
Bảng 7. THỬ NGHIỆM THEO ĐỘ LỚN TẬP NGỮ LIỆU 
Mô hình Mô tả 
WAR 
Người 
tham 
gia 
huấn 
luyện 
Người 
không 
tham 
gia 
huấn 
luyện 
VNSE_C01 Tập ngữ liệu huấn 
luyện 1 giọng đọc 
99% 64% 
VNSE_C05 Tập ngữ liệu huấn 
luyện 5 giọng đọc 
99% 90% 
VNSE _C7 Tập ngữ liệu huấn 
luyện 7 giọng đọc 
98,49% 93,73% 
B. Thành phần xử lý ngôn ngữ tự nhiên 
Với thành phần xử lý ngôn ngữ tự nhiên, chúng tôi 
tiến hành thử nghiệm trên 100 câu, thành phần này cho 
kết quả đúng với cả 100 mẫu câu thử. Đây là các mẫu 
câu nằm trong phạm vi các cấu trúc cú pháp đã được xây 
dựng cho hệ thống. Hệ thống có khả năng xử lý đúng 
toàn bộ các câu chuẩn này, điều này cho thấy hệ thống 
có tính ổn định và chính xác. 
Độ bao phủ: Với những câu không thuộc phạm vi 
các cấu trúc cú pháp thì hệ thống sẽ trả về kết quả phân 
tích cú pháp là false. Điều này cho thấy các qui tắc cú 
pháp DCG mà đề tài đã xây dựng và bộ từ điển vẫn chưa 
bao quát hết tất cả các trường hợp. Nếu bổ sung thêm bộ 
từ điển từ loại và hoàn thiện các qui tắc cú pháp DCG, 
độ bao phủ của hệ thống sẽ được tăng lên rất cao. 
C. Khảo sát người dùng 
Chúng tôi cũng đã tiến hành các khảo sát người sử 
dụng hệ thống với câu hỏi: “Hệ thống có dễ sử dụng hay 
không?” với 4 mức đánh giá, và được kết quả như bảng 
8. 
Bảng 8. KHẢO SÁT MỨC TIỆN DỤNG CỦA HỆ THỐNG 
Rất tiện 
dụng 
Khá tiện 
dụng 
Hơi tiện dụng Không tiện 
dụng 
30% 27% 23% 20% 
D. Thử nghiệm trên toàn bộ hệ thống 
Hệ thống được xây dựng trên môi trường PC với 
ngôn ngữ lập trình MS Visual C# 2012 và SWI-Prolog 
version 7.1.9. 
Bảng 9. THÔNG SỐ THỰC NGHIỆM 
Số lượng câu truy vấn 100 
Môi trường trong nhà (in-door) 
Tốc độ lấy mẫu 8 kHz 
Lượng tử hóa (Quantization) 16 bits 
Định dạng PCM 
Thiết bị điện thoại di động 
 Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 
ISBN: 978-604-67-0349-5 463
Hệ thống cho kết quả chính xác với 94/100 câu truy 
vấn tiếng Việt. Như đã nhận thấy ở trên, các kết quả 
không mong đợi đều thuộc về giai đoạn nhận dạng. 
Thời gian phản hồi trung bình của hệ thống là 2.6 giây. 
E. Đánh giá 
Trong quá trình kiểm thử, thành phần nhận dạng 
tiếng nói đã nhận dạng sai 25 câu trong tổng số 100 câu 
đưa vào thử nghiệm. Nhưng xét về mặt ngữ nghĩa có 
đến 19/25 câu nhận dạng sai vẫn bảo toàn được nghĩa 
ban đầu và được hệ thống xử lý đúng bởi thành phần xử 
lý ngôn ngữ tự nhiên, chỉ có 6 câu cho nghĩa sai bởi giai 
đoạn nhận dạng. Điều này cho thấy thành phần xử lý 
ngôn ngữ tự nhiên đóng vai trò quan trọng trong hệ 
thống, thành phần này có thể “sửa sai” cho cả giai đoạn 
nhận dạng tiếng nói. 
VII. KẾT LUẬN 
Bài báo đã trình bày mô hình kiến trúc của hệ thống 
EDUvoice cũng như cách tiếp cận để xây dựng nó. 
Trong hệ thống, thành phần xử lý ngôn ngữ tiếng Việt – 
nơi chịu trách nhiệm phân tích cú pháp và ngữ nghĩa 
của các dạng câu lệnh là thành phần cốt lõi của hệ 
thống. Theo hiểu biết của chúng tôi, đây là một trong 
những hệ thống đầu tiên tại Việt Nam được trang bị một 
cơ chế xử lý ngôn ngữ tự nhiên hiệu quả vào ứng dụng 
tiếng nói, giúp cho hệ thống trở nên thông minh và linh 
hoạt. Nghiên cứu này cũng mở ra một hướng phát triển 
mới cho việc xây dựng và phát triển các hệ thống hỏi 
đáp có thể hiểu và giao tiếp bằng tiếng nói tiếng Việt 
với người dùng. Hoạt động sắp tới của chúng tôi là triển 
khai ứng dụng voice server với mô-đun giao tiếp sử 
dụng tổng đài nguồn mở Asterisk nhằm giúp hệ thống 
hoạt động linh hoạt hơn. 
TÀI LIỆU THAM KHẢO 
[1] A. Hunt, A. Black and W. Alan, “Unit selection in a 
concatenative speech synthesis system using a large speech 
database," Pro c. ICASSP-96, 1, pp. 373, 1996. 
[2] Bennacef, S., Devillers, L., Rosset, S., and Lame1, L.: Dialogin 
the RAILTEL telephone‐based system. In Proc. ICSLP, 
pp.550‐‐553 (1996) 
[3] Duong Dau, Minh Le, Cuong Le and Quan Vu, “A Robust 
Vietnamese Voice Server for Automated Directory Assistance 
Application,” RIVF-VLSP 2012, Ho Chi Minh City, Viet Nam, 
2012. 
[4] Fernando C. N. Pereira and Stuart M. Shieber, Prolog and 
Natural-Language Analysis. Microtome Publishing, pp. 1 – 284, 
Massachusetts, 2005. 
[5] Hue Nguyen, Truong Tran, Nhi Le, Nhut Pham, Quan Vu, 
“iSago: The Vietnamese Mobile Speech Assistant for Food-
court and Restaurant Location,” RIVF-VLSP 2012, Ho Chi 
Minh City, Viet Nam, 2012. 
[6] Michelle Quinton, Windows NT 5.0 Brings You New 
Telephony Development Features with TAPI 3.0, Microsoft 
Systems Journal. [Online]. Available: 
 1998. 
[7] Nhut Pham, Quan Vu, “A Spoken Dialog System for Stock 
Information Inquiry,” in Proc. IT@EDU, Ho Chi Minh City, 
Viet Nam, 2012. 
[8] Patrick Blackburn, Johan Bos, “Representation and Inference 
for Natural Language: A First Course in Computational 
Semantics”. CSLI Press, pp. 1 – 376, Chicago, 2007. 
[9] Quan Vu et al., (2012). “Nghiên cứu xây dựng hệ thống Voice 
Server và ứng dụng cho các dịch vụ trả lời tự động qua điện 
thoại”. Technical report, Research project, HCM City 
Department of Science and Technology, Viet Nam. 
[10] Quan Vu, “VOS: The Corpus-based Vietnamese Text-to-speech 
System,” Journal on Information, Technologies, anh 
Communications, 2010. 
[11] Quoc The Van, Nguyen B. P. Nguyen, Anh K. V. Nguyen, Hien 
Thanh Vu, Thien Khai Tran “Vietnamese Speech Processing and 
Synthesis in VNSExpenses System”. International Journal of 
Advanced Research in Computer and Communication 
Engineering. Vol. 3, Issue 4, 2014. 
[12] Richard Montague, Formal Philosophy: Selected Papers of 
Richard Montague. Bell & Howell Information & Lea, pp. 1 – 
119, New Haven, 1974. 
[13] Sandiway Fong, “LING 364: Introduction to Formal Semantics. 
www.dingo.sbs.arizona.edu/~sandiway ”, 2012. 
[14] Steve Young et al, The HTK Book (version 3.4). [Online]. 
Available: www.htk.eng.cam.ac.uk/docs/docs.shtml, 2006. 
[15] Sikorski,T. and Allen, J., A task‐based evaluation of the 
TRAINS-95 dialogue system. In Proc. ECAI Workshop on 
Dialogue Processing in Spoken Language Systems (1996). 
[16] Thang Vu, Mai Luong, “The Development of Vietnamese 
Corpora Toward Speech Translation System,” RIVF-VLSP 
2012, Ho Chi Minh City, Viet Nam, 2012. 
[17] Thien Khai Tran, Dang Tuan Nguyen (2013). “Semantic 
Processing Mechanism for Listening and Comprehension in 
VNSCalendar System”. International Journal on Natural 
Language Computing (IJNLC) Vol. 2, No.2, April 2013. 
[18] Weizenbaum, J., ELIZA A computer program for the study of 
natural language communication between man and machine. 
Commun. ACM, Vol.9, No.1, pp.36‐‐45 (1966). 
[19] Winograd, T.,Understanding Natural Langauge.Academic Press 
(1972) 
 Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) 
ISBN: 978-604-67-0349-5 464

File đính kèm:

  • pdfhe_thong_tra_cuu_thong_tin_dao_tao_tin_chi_qua_mang_dien_tho.pdf