Thứ Tư, 28 tháng 9, 2016

Google trình làng hệ thống dịch thuật gần đạt mức chính xác như con người, áp dụng đầu tiên cho tiếng Trung Quốc

Đây là lần đầu tiên hệ thống machine learning được sử dụng cho việc dịch thuật.

Việc dịch từ ngôn ngữ này sang ngôn ngữ khác là việc không dễ, cho nên xây dựng một hệ thống dịch tự động là một thử thách lớn, nhất là khi có quá nhiều từ, câu và luật lệ trong ngôn ngữ của mỗi quốc gia. rất may mắn, hệ thống mạng nơ-ron ảo của trí thông minh nhân tạo đã sẵn sàng để đương đầu với điều này. Vừa qua Google đã trình làng hệ thống machine learning chuyên về dịch thuật sau khi đã nghiên cứu và phát triển trong nhiều năm.

Nó có tên Google Neural Machine Translation (GNMT), ban đầu được dùng cho hệ thống ngôn ngữ Trung Quốc và nó sẽ được triển khai ở các ngôn ngữ khác trong tương lai. Như vậy, hệ thống này là gì và hoạt động như thế nào?

Khởi đầu của hệ thống dịch: Word-by-word

Kỹ thuật đơn giản nhất của dịch thuật mà bất cứ hệ thống nào cũng làm được là tìm nghĩa của từ muốn dịch, sau đó đổi nó với từ tương đương nghĩa của ngôn ngữ khác, hay còn gọi là dịch word-by-word. Tất nhiên khi dịch bằng cách này, ngữ nghĩa của câu có thể bị biến đổi hoàn toàn, tuy nhiên nó vẫn có thể truyền đạt lại các ý chính một cách tối thiểu.

GNMT có thể xem là hệ thống dịch hiệu quả nhất tính đến thời điểm hiện tại. Nó sẽ phân tích ngữ nghĩa cả câu chứ không sử dụng các dịch word-by-word nữa, tuy nhiên GNMT vẫn phân tích câu ra thành từng chữ. Có thể hiểu cơ chế dịch của GNMT khi con người thường xem ngữ nghĩa của một câu trước tách chúng ra thành nhiều phần nhỏ để dịch khi dịch. Hệ thống mạng nơ-ron ảo đã được huấn luyện để phân tích hình ảnh/vật thể theo cách của con người, và việc dịch thuật cũng không phải ngoại lệ.

Ảnh minh họa cách thức GNMT dịch một câu.​

Ảnh minh họa cách thức GNMT dịch một câu.​

Dùng machine learning để dịch thuật

Được biết, GNMT có rất nhiều ưu điểm so với hệ thống dịch thuật khác, ví dụ như khi tìm thấy những từ hiếm gặp, nó sẽ "bẻ" từ đó ra thành nhiều phần và tìm toàn bộ ngữ nghĩa của những phần nhỏ ấy, sau đó tổng hợp và đưa ra một nghĩa chung gần nhất. Google đã phải xây dựng hệ thống phần cứng riêng biệt cho hệ thống dịch machine learning này của mình. Kết quả là một hệ thống dịch gần như đạt đến độ chính xác của con người đã ra đời.

Bảng so sánh sự chính xác của dịch theo kiểu truyền thống (màu xanh dương), GNMT (màu xanh lá cây) và con người (màu cam).

Bảng so sánh sự chính xác của dịch theo kiểu truyền thống (màu xanh dương), GNMT (màu xanh lá cây) và con người (màu cam).

"Theo đánh giá, GNMT đã giảm 60% lỗi dịch thuật so với các hệ thống dịch trước đó. Các thí nghiệm mới nhất cũng cho thấy chất lượng dịch của GNMT đã gần đạt độ chính xác của con người hơn", theo các tài liệu của Google cho biết. Trong bài blog trên website Google, nhóm làm việc Google Brain, bao gồm ông Quoc Le và Mike Schuster, đã cho biết lỗi dịch thuật đã giảm từ 55-85% tùy ngôn ngữ.

Tuy nhiên, đây vẫn là giai đoạn khởi đầu và GNMT vẫn còn mắc những lỗi nhỏ. Le và Schuster cho biết hệ thống vẫn đang trong quá trình "học" và nó sẽ được cải thiện trong tương lai, vẫn còn nhiều việc phải làm để khiến người dùng hài lòng. Dù sao, GNMT cũng là thứ để đánh dấu kỷ nguyên dịch thuật mới của máy móc.

Tổng hợp

Dương Nguyễn
Dương Nguyễn

Work hard and learn more invaluable lessons when serving in professional business oriented environment so as to accumulate more experience for further overall advancement.

Vui lòng chia sẻ cảm nghĩ của bạn / Spread out Your Opinions

Vui lòng sử dụng Tiếng Việt có dấu và không bình luận quảng cáo hoặc nội dung không liên quan tới chủ đề.
Please use English to post a comment and do not spamming or marketing.