Google cập nhật mô hình dịch trực tiếp cho ứng dụng Translate và Meet tại thị trường Việt Nam
Gã khổng lồ công nghệ Google vừa chính thức triển khai mô hình âm thanh thế hệ mới mang tên Gemini 3.5 Live Translate tại thị trường Việt Nam. Tính năng này đem đến khả năng phiên dịch giọng nói theo thời gian thực với độ trễ cực thấp, hứa hẹn thay đổi toàn diện cách thức giao tiếp đa ngôn ngữ trên các ứng dụng quen thuộc như Google Translate và Google Meet.
Bước tiến vượt bậc từ công nghệ dịch thuật luồng liên tục
Khác biệt hoàn toàn với các hệ thống dịch thuật truyền thống vốn yêu cầu người dùng phải luân phiên nói và chờ đợi câu dịch hoàn chỉnh, Gemini 3.5 Live Translate vận hành theo cơ chế xử lý luồng liên tục. Mô hình sẽ liên tục lắng nghe, dịch thuật và phát âm thanh song song với lời nói của người giao tiếp. Quá trình này diễn ra tự nhiên như hình thức dịch cabin tại các hội nghị quốc tế, duy trì khoảng cách chỉ vài giây để đảm bảo tính đồng bộ và mạch lạc cho cuộc trò chuyện thực tế.
Đặc biệt, công nghệ mới của Google đã giải quyết tốt bài toán dịch thuật trong môi trường nhiều tạp âm, tiếng ồn nền hoặc khi các nhân vật nói chuyện xen lẫn, chồng chéo lên nhau. Thay vì tạo ra những giọng nói tổng hợp đơn điệu như trước, mô hình này có khả năng bảo tồn các yếu tố đặc trưng của người nói gốc bao gồm tốc độ, nhịp điệu, cao độ và cả tông giọng biểu cảm. Điều này giúp trải nghiệm nghe bản dịch trở nên chân thực, gần gũi và dễ dàng theo dõi hơn rất nhiều.
Trải nghiệm cá nhân hóa độc đáo trên các ứng dụng cốt lõi
Hiện tại, tính năng dịch trực tiếp (Live Translate) đã bắt đầu được triển khai toàn cầu trên ứng dụng Google Translate cho cả hai hệ điều hành Android và iOS. Người dùng chỉ cần kết nối với tai nghe, chọn cặp ngôn ngữ và kích hoạt tính năng ở góc màn hình để bắt đầu sử dụng. Riêng đối với nền tảng Android, Google còn tích hợp một chế độ nghe vô cùng độc đáo thông qua loa thoại. Người dùng chỉ cần áp điện thoại lên tai giống như đang nghe một cuộc gọi thông thường để lắng nghe phần dịch âm thanh trực tiếp. Tiện ích này đặc biệt hữu hiệu trong các tình huống cần bảo mật, không muốn người xung quanh nghe thấy hoặc khi không mang sẵn tai nghe bên mình.
Trên nền tảng hội họp trực tuyến Google Meet, mô hình Gemini 3.5 Live Translate cũng tạo nên một cuộc cách mạng khi nâng số lượng ngôn ngữ hỗ trợ từ 5 lên hơn 70 ngôn ngữ, bao gồm cả tiếng Việt. Bản cập nhật này cho phép kết hợp tới hơn 2.000 cặp tổ hợp ngôn ngữ khác nhau trong cùng một phòng họp trực tuyến thay vì chỉ giới hạn dịch sang tiếng Anh như trước. Hiện tại, bản Preview của tính năng đang được áp dụng cho một số khách hàng doanh nghiệp của Google Workspace trước khi chính thức mở rộng quy mô vào cuối năm nay.
Tính ứng dụng thực tế sâu rộng và cam kết an toàn thông tin
Không dừng lại ở các ứng dụng nội bộ, Google đã mở rộng công nghệ này đến các nhà phát triển thông qua Gemini Live API và Google AI Studio. Các đối tác lớn như Agora, Fishjam, LiveKit, Pipecat và Vision Agents đã nhanh chóng tích hợp mô hình này để xây dựng các giải pháp giao tiếp đa ngôn ngữ mà không cần tự xử lý hạ tầng truyền phát phức tạp. Tại Đông Nam Á, ứng dụng gọi xe công nghệ Grab hiện đang là một trong những đơn vị tiên phong thử nghiệm mô hình nhằm hỗ trợ tài xế và hành khách giao tiếp gần như tức thời tại các điểm đón.
Theo ông Philipp Kandal, Giám đốc sản phẩm tại Grab, đơn vị đánh giá rất cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch thuật chính xác với độ trễ thấp của Gemini 3.5 Live Translate. Đây là giải pháp quan trọng giúp tối ưu hóa cho hơn 10 triệu cuộc gọi thoại phát sinh mỗi tháng trên nền tảng gọi xe này. Ngoài ra, mô hình mới của Google còn được kỳ vọng sẽ ứng dụng rộng rãi trong các lĩnh vực thiết thực của đời sống như dịch vụ khách hàng, hướng dẫn du lịch, giáo dục lớp học và phát sóng trực tiếp xuyên biên giới.
Để đảm bảo tính trách nhiệm và ngăn chặn rủi ro giả mạo giọng nói hoặc phát tán thông tin sai lệch, Google đã nhúng trực tiếp giải pháp dấu chìm kỹ thuật số SynthID vào toàn bộ âm thanh đầu ra do AI tạo ra. Hình mờ mã hóa đặc biệt này giúp các hệ thống dễ dàng nhận biết nội dung do trí tuệ nhân tạo xây dựng, từ đó nâng cao tính an toàn và minh bạch thông tin trong kỷ nguyên số.