Điện thoại biết nhận ra lời nói tiếng Việt
3:26 CH,14/04/2016

Nhóm nghiên cứu Nguyễn Hải Dương, Trường đại học xây dựng Hà Nội; Nguyễn Hồng Quang, Trường đại học bách khoa Hà Nội đã xây dựng được ứng dụng nhận dạng chuỗi số tiếng Việt phát âm liên tục, trên các điện thoại thông minh cài đặt hệ điều hành Android. Hệ thống đã được thử nghiệm trên các thiết bị Samsung Galaxy Mini S5570, Samsung Galaxy Young S5360, LG Optimus One P500, Lenovo s560, Lenovo A3000, và một số thiết bị khác được cài đặt hệ điều hành Google Android. Ứng dụng chạy ổn định và kết quả nhận dạng khá đúng, trong môi trường ít tiếng ồn.

CMUSphinx là bộ công cụ nhận dạng tiếng nói do Trường đại học Canergie Mellon phát triển. CMUSphinx có khả năng nhận dạng các câu nói liên tục. Trong quá trình sử dụng CMUSphinx để xây dựng hệ thống nhận dạng tiếng Việt nói, nhóm nghiên cứu đã phải nghiên cứu các tham số và hiệu chỉnh nó sao cho phù hợp nhất với việc nhận dạng tiếng Việt nói, từ việc chuẩn bị kịch bản thu âm được tính toán trước để đảm bảo các yêu cầu cho việc rút trích đặc trưng tiếng nói, hay điều chỉnh các thông số trong quá trình huấn luyện dữ liệu nhận dạng để có đầu ra tốt nhất, cho đến việc hiệu chỉnh các tham số bên trong hệ thống để khử nhiễu từ môi trường, chỉnh tần số sóng âm thu được từ micro sao cho phù hợp với các thiết bị di động... Những hiệu chỉnh này là kết quả của quá trình thực nghiệm nhiều lần và đánh giá kết quả thu được.

Nhóm nghiên cứu đã thu âm cho khoảng gần 100 người với độ cân bằng về giới tính đạt tỷ lệ tương đương 50%, với đủ các phương ngữ và giọng nói đến từ các vùng miền khác nhau trên toàn quốc, đa dạng về tốc độ nói nhanh, chậm. Đối tượng tham gia vào công tác thu âm chủ yếu là sinh viên và giảng viên thuộc các trường đại học và các viện nghiên cứu. Mỗi người được thu âm 80 mẫu theo một kịch bản được tính toán và chuẩn bị từ trước đó. Việc thu âm cũng được thực hiện tại các môi trường khác nhau nhằm tạo ra một biên giới của sóng âm giữa độ ồn của môi trường với giọng nói của người thu âm, như trong phòng kín, ngoài trời, tại nơi đông người qua lại, ngoài đường, dưới hầm chui...

Do tiếng nói bị ảnh hưởng bởi rất nhiều yếu tố như: tốc độ nói (nhanh, chậm...), âm điệu (trầm, bổng...), giọng của người nói (nam hay nữ), ngữ điệu (lên cao, xuống thấp), trạng thái của người nói (giận dữ, vui vẻ...), sự phát âm chuẩn, không chuẩn của người nói (nói ngọng, nói méo tiếng...), sự ảnh hưởng nhiễu từ môi trường (độ ồn của môi trường xung quanh...) nên các kết quả nhận dạng được đánh giá ở nhiều mức khác nhau. Với môi trường ít nhiễu, độ ồn thấp, người nói có tiếng nói bình thường của người Việt (không ngọng, không méo tiếng...) và tốc độ nói vừa phải, hệ thống cho kết quả nhận dạng chính xác đến 90% những số mà người dùng đọc vào. Với các môi trường khác bị ảnh hưởng của các yếu tố gây cản trở cho việc nhận dạng thì độ chính xác giảm dần theo mức độ ảnh hưởng của môi trường.

Nguồn: Khoa học phổ thông, ngày 14/4/2016

Bản quyền thuộc Cục Thông tin Khoa học và Công nghệ Quốc gia.
Địa chỉ trụ sở chính: 24 Lý Thường Kiệt - Quận Hoàn Kiếm - Hà Nội.
Tel: (84-04) 38249874 - 39342945 | Fax: (08-04) 38249874 | Email: techmart@vista.gov.vn