Giới thiệu Gemini: mô hình AI lớn nhất và năng lực nhất từ Google

NTTH · 7/12/23

(vfo.vn) Ngày 06/12/2023, Google đã giới thiệu Gemini mô hình AI lớn nhất và năng lực nhất từ hãng, cơ hội khiến AI trở nên hữu ích cho mọi người .

Gemini là kết quả của những nỗ lực hợp tác quy mô lớn giữa các đội ngũ trong Google, bao gồm cả các cộng sự của Google tại Google Research. Ngay từ ban đầu, nó được xây dựng trở nên đa phương thức, nghĩa là nó có thể khái quát và có khả năng hiểu liền mạch, vận hành và kết hợp trên nhiều loại thông tin khác nhau bao gồm văn bản, code, âm thanh, hình ảnh và video.

Google đã tối ưu hóa phiên bản đầu tiên là Gemini 1.0 với ba kích cỡ khác nhau như sau:

Gemini Ultra - mô hình lớn nhất và năng lực nhất của Google dành cho các tác vụ có độ phức tạp cao.
Gemini Pro - mô hình tốt nhất của Google để mở rộng quy mô trên nhiều loại tác vụ.
Gemini Nano - mô hình hiệu quả nhất của Google dành cho các tác vụ thực hiện trên thiết bị.

Google đã thử nghiệm nghiêm ngặt các mô hình Gemini và đánh giá hiệu suất của chúng trên nhiều tác vụ khác nhau. Từ việc nhận biết hình ảnh tự nhiên, âm thanh và video cho đến khả năng tư duy toán học, hiệu suất của Gemini Ultra vượt qua các kết quả hiện đại nhất là 30 trong số 32 tiêu chuẩn học thuật được sử dụng rộng rãi để nghiên cứu và phát triển mô hình ngôn ngữ lớn (LLM).

Với số điểm 90%, Gemini Ultra là mô hình đầu tiên vượt trội hơn các chuyên gia con người về tiêu chuẩn MMLU (Massive Multitask Language Understanding; tạm dịch: Hiểu ngôn ngữ đa nhiệm lớn), bằng cách sử dụng tổ hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề.

Cách tiếp cận chuẩn mới của Google đối với MMLU cho phép Gemini sử dụng khả năng suy luận của nó để suy nghĩ kỹ hơn trước khi trả lời những câu hỏi khó, đưa đến những cải tiến đáng kể so với việc chỉ sử dụng ấn tượng đầu tiên.

Với số điểm 90%, Gemini Ultra là mô hình đầu tiên vượt trội hơn các chuyên gia con người về tiêu chuẩn MMLU (Massive Multitask Language Understanding; tạm dịch: Hiểu ngôn ngữ đa nhiệm lớn), bằng cách sử dụng tổ hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề.

Cách tiếp cận chuẩn mới của Google đối với MMLU cho phép Gemini sử dụng khả năng suy luận của nó để suy nghĩ kỹ hơn trước khi trả lời những câu hỏi khó, đưa đến những cải tiến đáng kể so với việc chỉ sử dụng ấn tượng đầu tiên.

Gemini Ultra cũng đạt được số điểm cao nhất là 59,4% trên tiêu chuẩn MMMU mới (Massive Multi-discipline Multimodal Understanding, tạm dịch: Hiểu biết lớn về đa phương thức trên đa ngành), bao gồm các tác vụ đa phương thức trải rộng trên các lĩnh vực khác nhau đòi hỏi suy luận có chủ ý.

Với tiêu chuẩn hình ảnh mà Google đã thử nghiệm, Gemini Ultra vượt trội hơn các mô hình hiện đại nhất trước đó mà không cần sự hỗ trợ từ hệ thống nhận dạng ký tự đối tượng (OCR) trích xuất văn bản từ hình ảnh để tiếp tục xử lý. Những tiêu chuẩn này làm nổi bật tính đa phương thức vốn có của Gemini và cho thấy những dấu hiệu ban đầu về khả năng suy luận phức tạp hơn của Gemini.

Cho đến nay, cách tiếp cận tiêu chuẩn để tạo ra các mô hình đa phương thức bao gồm việc đào tạo các thành phần riêng biệt cho từng phương thức khác nhau trước và sau đó ghép chúng lại để mô phỏng gần đúng một số chức năng này. Những mô hình này đôi khi có thể thực hiện tốt một số nhiệm vụ nhất định như mô tả hình ảnh, nhưng lại gặp khó khăn trong việc lập luận phức tạp và mang tính khái niệm hơn.

Google đã thiết kế Gemini để nó có khả năng đa phương thức một cách tự nhiên, được đào tạo bởi nhiều phương thức khác nhau ngay từ ban đầu. Sau đó, Google tinh chỉnh bằng dữ liệu đa phương thức bổ sung để cải tiến hơn nữa tính hiệu quả của nó. Điều này giúp Gemini hiểu và suy luận liền mạch về mọi loại đầu vào ngay từ đầu, tốt hơn rất nhiều so với các mô hình đa phương thức hiện có — và những khả năng của nó đều là tân tiến nhất trong hầu hết mọi lĩnh vực.

Google đã đào tạo Gemini 1.0 trên quy mô cơ sở hạ tầng được tối ưu hoá cho AI bằng cách sử dụng bộ xử lý Tensor (TPU) phiên bản v4 và v5e được thiết kế bởi hãng. Google cho biết hãng đã thiết kế nó trở thành mô hình đáng tin cậy và dễ mở rộng nhất để đào tạo, cũng như hiệu quả nhất để phục vụ.

Gemini được đánh giá có độ an toàn toàn diện nhất so với bất kỳ mô hình AI của Google tính đến hiện nay, bao gồm cả tính thành kiến và tính độc hại. Google đã tiến hành nghiên cứu mới về các lĩnh vực rủi ro tiềm ẩn như tấn công mạng, tính thuyết phục và quyền tự chủ, đồng thời đã áp dụng các kỹ thuật thử nghiệm đối thủ tốt nhất của Google Research để giúp xác định các vấn đề an toàn quan trọng trước khi triển khai Gemini.

Hiện nay, Gemini 1.0 đang được triển khai trên một số lượng lớn các sản phẩm và nền tảng khác nhau. Google đang mang Gemini đến hàng tỉ người dùng qua các sản phẩm của hãng. Bắt đầu từ ngày 06/12/2023, Bard sẽ sử dụng phiên bản tinh chỉnh của Gemini Pro để lý luận, lập kế hoạch, hiểu biết nâng cao và hơn thế nữa. Đây là bản nâng cấp lớn nhất đối với Bard kể từ khi ra mắt. Phiên bản Bard này sẽ có trong tiếng Anh ở hơn 180 quốc gia và vùng lãnh thổ, đồng thời Google có kế hoạch mở rộng các phương thức khác nhau, cũng như hỗ trợ các ngôn ngữ và địa điểm mới trong tương lai gần.

Google cũng sẽ triển khai Gemini trên điện thoại Pixel. Pixel 8 Pro là chiếc điện thoại đầu tiên được thiết kế để vận hành Gemini Nano, hỗ trợ các tính năng mới như Tóm tắt trong ứng dụng Ghi âm, cũng như triển khai tính năng Trả lời thông minh trên bàn phím Gboard, bắt đầu với ứng dụng WhatsApp và trên các ứng dụng nhắn tin khác vào năm tới. Trong các tháng sắp tới, Gemini sẽ có mặt trên nhiều sản phẩm và dịch vụ của Google như Google Search, Google Ads, Chrome và Duet AI. Google cũng đã bắt đầu thử nghiệm Gemini trong Google Search, nơi mà Gemini giúp Search Generative Experience (SGE) vận hành nhanh hơn cho người dùng, giảm 40% độ trễ bằng tiếng Anh tại Mỹ, cùng với những cải tiến về chất lượng.

Từ ngày 13/12/2023, các nhà phát triển và khách hàng doanh nghiệp có thể truy cập vào Gemini Pro thông qua Gemini API trong Google AI Studio hoặc Google Cloud Vertex AI. Google AI Studio là một công cụ miễn phí được xây dựng trên web dành cho nhà phát triển, nó giúp các nhà phát triển và khách hàng doanh nghiệp tạo ra các phiên bản nguyên mẫu và khởi chạy ứng dụng nhanh chóng với một mã khoá API. Khi bạn cần một nền tảng AI với toàn quyền quản lý, Vertex AI cho phép bạn tùy chỉnh Gemini với quyền kiểm soát toàn bộ dữ liệu và hưởng lợi từ các tính năng bổ sung của Google Cloud dành cho doanh nghiệp về tính bảo mật, sự an toàn, quyền riêng tư cũng như tính quản trị và tuân thủ dữ liệu.

Các nhà phát triển ứng dụng Android cũng sẽ có thể xây dựng ứng dụng với Gemini Nano, mô hình hiệu quả nhất của Google cho các tác vụ trên thiết bị, thông qua AICore. Đây là một tính năng hệ thống mới có sẵn trong Android 14, được thiết lập ban đầu trên các thiết bị Pixel 8 Pro.

Đối với Gemini Ultra, Google hiện đang hoàn tất các cuộc thử nghiệm độ tin cậy và an toàn trên diện rộng, bao gồm cả việc hợp tác với các bên đáng tin cậy, đồng thời cải tiến mô hình bằng cách tinh chỉnh và học hỏi tăng cường từ các phản hồi của con người (RLHF) trước khi được ra mắt rộng rãi. Là một phần của quá trình trên, Google sẽ cung cấp Gemini Ultra cho một số khách hàng, nhà phát triển, đối tác cũng như các chuyên gia về an toàn và trách nhiệm để thử nghiệm và đưa ra phản hồi, trước khi ra mắt các nhà phát triển và khách hàng doanh nghiệp trong năm tới.

Đầu năm sau, Google cũng sẽ ra mắt Bard Advanced, một trải nghiệm AI mới và tiên tiến, cho phép bạn tiếp cận những mô hình và tính năng tốt nhất của , bắt đầu với Gemini Ultra.

Đây là một cột mốc quan trọng trong sự phát triển của AI, và là sự khởi đầu cho một kỷ nguyên mới tại Google. Google đã đạt được một bước tiến tuyệt vời với Gemini cho đến thời điểm hiện tại và hiện đang cố gắng phát triển hơn nữa khả năng của nó cho các phiên bản trong tương lai, bao gồm những tiến bộ trong việc lập kế hoạch và ghi nhớ, cũng như mở rộng cửa sổ ngữ cảnh để xử lý được nhiều thông tin hơn và đưa ra những phản hồi tốt hơn.

Giới thiệu Gemini: mô hình AI lớn nhất và năng lực nhất từ Google

(vfo.vn) Ngày 06/12/2023, Google đã giới thiệu Gemini mô hình AI lớn nhất và năng lực nhất từ hãng, cơ hội khiến AI trở nên hữu ích cho mọi người .

Tham khảo TCBC Google và nguồn khác

Bài viết mới nhất

Thống kê

Bài viết được quan tâm nhiều