Kỹ sư AI người Việt giới thiệu nghiên cứu tại hội nghị khoa học hàng đầu thế giới

Công trình nghiên cứu giúp tăng độ chính xác của các mô hình nhận dạng tiếng nói trong thời gian thực (Streaming Automatic Speech Recognition) được thực hiện bởi kỹ sư Zalo AI, đã được chấp nhận công bố tại Hội nghị khoa học thế giới về Xử lý tiếng nói - Interspeech.

Công trình nghiên cứu của Zalo AI với đề tài: “Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking” (Tạm dịch: Cải thiện nhận dạng tiếng nói thời gian thực bằng cơ chế chú ý dịch chuyển theo thời gian và mặt nạ ngữ cảnh tương lai động), được thực hiện bởi kỹ sư sinh năm 2000 tên Lê Duy Khánh đến từ Zalo AI dưới sự hướng dẫn của TS. Châu Thành Đức - Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên, ĐH Quốc gia TP.HCM. Nghiên cứu này có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.​
Hinh-1.jpg
Lê Duy Khánh – kỹ sư sinh năm 2000, sẽ trình bày về đề tài nghiên cứu của mình tại Interspeech 2024

Hiện nay, hầu hết thuật toán nhận dạng tiếng nói thời gian thực (streaming ASR) gặp khó khăn với việc thiếu ngữ cảnh (context), dẫn đến chất lượng nhận dạng không được tối ưu. Mặc dù việc bổ sung ngữ cảnh có thể cải thiện độ chính xác, nhưng thường đi kèm với việc tăng độ trễ (latency) trong quá trình chuyển giọng nói thành văn bản. Nghiên cứu của Zalo AI hướng đến việc cung cấp nhiều ngữ cảnh hơn cho mô hình nhận dạng tiếng nói, tượng tự như việc “nhìn trước” tương lai, từ đó nâng cao đáng kể độ chính xác mà không làm gia tăng độ trễ, khác biệt so với các nghiên cứu trước đây.

Nghiên cứu này đã được Zalo tích hợp vào ứng dụng nhắn tin của từ cuối năm 2023, mang lại sự cải thiện về độ chính xác cho tính năng “soạn tin nhắn bằng giọng nói” (voice dictation) đang trong giai đoạn thử nghiệm. Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói, thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Sau khi áp dụng các cải tiến từ nghiên cứu, độ chính xác của tính năng này đã đạt tới 95% trong môi trường thực tế, với tỷ lệ cần chỉnh sửa lại văn bản sau khi soạn bằng giọng nói cũng giảm từ 6,4% xuống chỉ còn 4,8%.

Ngoài việc cải thiện tính năng hiện có, đề tài nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp nhiều sản phẩm và dịch vụ khác, bao gồm chatbot giọng nói, trợ lý giọng nói, hoặc tính năng tự động tạo bản ghi (transcript) cho các cuộc gọi video...​
Hinh-2.jpg
Tính năng "soạn tin nhắn bằng giọng nói" trên Zalo đã được nâng cấp đáng kể nhờ vào kết quả của nghiên cứu mới

Interspeech là một hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing), do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức. Đây cũng là một trong số ít các hội thảo quốc tế được xếp hạng A bởi Hiệp hội Máy tính và nghiên cứu giáo dục của Australia (CORE). Năm nay, Interspeech tổ chức lần thứ 25 và sẽ diễn ra từ ngày 01- 05/09 tại đảo Kos (Hy Lạp).​

Thông tin được cung cấp bởi Zing (VNG)

 
Sửa lần cuối bởi điều hành viên:
  • Chủ đề
    hội nghị khoa học thế giới interspeech soạn tin nhắn bằng giọng nói zalo
  • Thống kê

    Chủ đề
    101,349
    Bài viết
    468,510
    Thành viên
    340,085
    Thành viên mới nhất
    mun hằng
    Top