Trí tuệ nhân tạo (AI) - Chuyên đề 2: Introduction to Large Language Models (Giới thiệu về Mô hình ngôn ngữ lớn)

Đỗ Ngọc Minh

Chuyên đề 2: Introduction to Large Language Models (Giới thiệu về Mô hình ngôn ngữ lớn)

Mục tiêu: Giúp bạn hiểu đúng về ChatGPT và các mô hình ngôn ngữ lớn (LLM), cách chúng "học" ngôn ngữ và các ứng dụng thực tế.

Thời lượng đề xuất: ~45 phút.

Đối tượng: Người làm content, AI enthusiast, người kinh doanh online.

1. Tiêu đề: Introduction to Large Language Models (LLM)

Giải mã "Bộ Não" đằng sau ChatGPT
Nếu Generative AI là khái niệm rộng về "AI sáng tạo", thì Mô hình Ngôn ngữ Lớn (LLM) chính là công nghệ cốt lõi, là "bộ não" chuyên biệt giúp AI có thể hiểu và giao tiếp bằng ngôn ngữ con người một cách đáng kinh ngạc. Trong chuyên đề này, chúng ta sẽ "mổ xẻ" bộ não này.

2. LLM là gì?

Định nghĩa chi tiết: LLM là viết tắt của Large Language Model. Đây là một loại mô hình Trí tuệ nhân tạo được thiết kế chuyên biệt để thực hiện các nhiệm vụ liên quan đến Ngôn ngữ Tự nhiên (Natural Language Processing - NLP). Chúng ta hãy phân tích từng thành phần:

Large (Lớn): Từ "lớn" ở đây đề cập đến hai khía cạnh:

1. Quy mô dữ liệu huấn luyện: Chúng được "đọc" một khối lượng văn bản khổng lồ, có thể lên tới hàng trăm tỷ từ từ Internet, sách, và các nguồn dữ liệu khác.

2. Số lượng tham số (parameters): Đây là các biến số bên trong mô hình mà nó tự điều chỉnh trong quá trình học. Các LLM hàng đầu có từ hàng tỷ đến hàng nghìn tỷ tham số. Có thể hình dung tham số như các "nút thần kinh" trong bộ não của mô hình, và càng nhiều tham số thì khả năng nắm bắt các sắc thái phức tạp của ngôn ngữ càng cao.

Language (Ngôn ngữ): Trọng tâm của chúng là ngôn ngữ con người - bao gồm từ vựng, ngữ pháp, ngữ cảnh, văn phong, và cả những kiến thức tiềm ẩn trong các văn bản đó.
Model (Mô hình): Nó là một hệ thống toán học (cụ thể là một mạng nơ-ron sâu - deep neural network) mô phỏng lại cách ngôn ngữ hoạt động. Về cơ bản, nó là một cỗ máy dự đoán xác suất cực kỳ phức tạp.

Ví dụ về các LLM nổi tiếng:

Dòng GPT (Generative Pre-trained Transformer) của OpenAI, ví dụ như GPT-3.5 và GPT-4, là sức mạnh đằng sau ChatGPT.
LaMDA và PaLM 2 của Google, là nền tảng cho Gemini (trước đây là Bard).
Llama của Meta AI.

3. LLM "học" ngôn ngữ như thế nào?

Cơ chế học của LLM vừa đơn giản về nguyên tắc, vừa phức tạp về thực thi.

Nguyên tắc cốt lõi: Dự đoán từ tiếp theo (Next-Token Prediction).

Nhiệm vụ cơ bản nhất được giao cho LLM trong quá trình huấn luyện là: "Cho một chuỗi các từ, hãy đoán từ có khả năng xuất hiện tiếp theo nhất."
Hãy tưởng tượng bạn đưa cho nó hàng tỷ câu ví dụ như:

"Mặt trời mọc ở hướng ____."
"Để pha một tách cà phê, đầu tiên bạn cần ____."
"Thủ đô của Việt Nam là ____."

Ban đầu, mô hình sẽ đoán ngẫu nhiên. Nhưng mỗi lần đoán sai, nó sẽ tự điều chỉnh các "tham số" bên trong để lần sau đoán đúng hơn. Sau khi lặp lại quá trình này hàng tỷ tỷ lần với vô số ngữ cảnh khác nhau, nó không chỉ học thuộc lòng. Nó bắt đầu nhận ra các quy luật: quy luật ngữ pháp (sau tính từ là danh từ), quy luật ngữ nghĩa (thủ đô thường là một thành phố), và các kiến thức phổ thông.

Học tự giám sát (Self-supervised learning): Quá trình này được gọi là "tự giám sát" vì con người không cần phải dán nhãn thủ công cho từng câu. Dữ liệu (văn bản) tự chứa câu trả lời (từ tiếp theo). Điều này cho phép các LLM học từ quy mô dữ liệu khổng lồ trên Internet mà không cần sự can thiệp liên tục của con người.

4. So sánh cách học của LLM và Con người

Cách học	Con người	LLM
Nguồn dữ liệu	Trải nghiệm đa giác quan: nghe, nhìn, nói, chạm, nếm. Học qua giao tiếp xã hội, cảm xúc và bối cảnh thực tế.	Chỉ học từ dữ liệu văn bản (và gần đây là hình ảnh). Dữ liệu tĩnh, không có trải nghiệm thực tế.
Tốc độ	Tương đối chậm, cần nhiều năm để thành thạo ngôn ngữ và tích lũy kiến thức.	Cực kỳ nhanh. Có thể "đọc" toàn bộ Wikipedia trong vài giờ.
Bản chất	Xây dựng sự hiểu biết thực sự về thế giới. Gắn liền từ ngữ với khái niệm và trải nghiệm.	Nhận dạng mẫu xác suất trong chuỗi ký tự. Nó không "hiểu" con mèo là gì, nhưng nó biết từ "mèo" thường xuất hiện cùng với "lông", "meo meo", "bắt chuột".
Kết quả	Giao tiếp có ý thức, có mục đích, và dựa trên sự hiểu biết.	Tạo ra văn bản có vẻ mạch lạc và thông minh bằng cách ghép nối các từ theo xác suất hợp lý nhất.

5. "Kiến thức" của LLM nằm ở đâu?

Đây là một điểm thường gây hiểu lầm. LLM không có một cơ sở dữ liệu để "tra cứu" thông tin.

Kiến thức của nó được mã hóa dưới dạng các giá trị số của hàng tỷ tham số. Toàn bộ mạng lưới tham số này tạo thành một mô hình toán học phức tạp của ngôn ngữ và kiến thức mà nó đã học.
Khi bạn đặt một câu hỏi, câu hỏi đó được chuyển thành một chuỗi số (vector). Chuỗi số này sau đó được xử lý qua nhiều lớp của mạng nơ-ron. Tại mỗi lớp, các tham số sẽ biến đổi chuỗi số này. Cuối cùng, đầu ra là một chuỗi số khác, được giải mã ngược lại thành văn bản mà chúng ta đọc được.
Quá trình này không phải là "tìm kiếm" mà là "suy luận dựa trên xác suất". Nó đang tính toán xem chuỗi từ nào là câu trả lời hợp lý và có khả năng xảy ra cao nhất dựa trên câu hỏi của bạn và toàn bộ "kiến thức" đã được mã hóa trong các tham số.

6. Ứng dụng

#1: Viết lách & Sáng tạo nội dung

Đây là ứng dụng phổ biến và mạnh mẽ nhất của LLM.

Copywriting và Marketing: LLM có thể tạo ra nhiều phiên bản cho một bài quảng cáo trên Facebook, viết các dòng tiêu đề email hấp dẫn, hay soạn mô tả sản phẩm cho trang thương mại điện tử.
Sáng tạo nội dung: Nó là công cụ đắc lực để lên dàn ý cho một bài blog, viết bản nháp đầu tiên, tìm kiếm các ý tưởng phụ, và thậm chí là viết các đoạn văn hoàn chỉnh.
Hỗ trợ công việc văn phòng: Tóm tắt các cuộc họp dài, dịch các tài liệu ngoại ngữ, viết lại một đoạn văn cho chuyên nghiệp hơn, hoặc kiểm tra lỗi chính tả và ngữ pháp.

#2: Dịch thuật & Giao tiếp

Dịch thuật thế hệ mới: Các công cụ dịch thuật hiện đại như Google Translate ngày càng trở nên chính xác và tự nhiên hơn nhờ được hỗ trợ bởi các LLM. Chúng có thể hiểu ngữ cảnh của cả câu thay vì chỉ dịch từng từ một.
Chatbot và Chăm sóc khách hàng: Thay vì các chatbot truyền thống chỉ trả lời theo kịch bản có sẵn, chatbot dựa trên LLM có thể hiểu các câu hỏi phức tạp của khách hàng, trả lời một cách linh hoạt và tự nhiên, giúp giải quyết vấn đề hiệu quả hơn và giảm tải cho nhân viên hỗ trợ.
Trợ lý ảo thông minh: Các trợ lý ảo trên điện thoại hoặc loa thông minh có thể thực hiện các tác vụ phức tạp hơn như "Hãy tóm tắt email mới nhất từ sếp của tôi và soạn một câu trả lời nói rằng tôi sẽ xem xét nó vào chiều nay."

7. Ví dụ: Tại sao ChatGPT có thể viết theo nhiều 'giọng văn'?

Khả năng này đến từ sự đa dạng của dữ liệu huấn luyện.

1. Học từ nhiều nguồn: Dữ liệu huấn luyện của nó bao gồm vô số thể loại: từ các bài báo khoa học hàn lâm, các bài phát biểu chính trị trang trọng, các bài đăng blog cá nhân thân mật, các cuộc trò chuyện trên mạng xã hội, cho đến các tác phẩm văn học hài hước.

2. Nhận diện đặc điểm văn phong: Trong quá trình học, nó không chỉ học nội dung mà còn học cả phong cách. Nó nhận ra rằng văn phong khoa học thường dùng câu phức, thuật ngữ chuyên ngành và giọng văn khách quan. Ngược lại, văn phong blog thường dùng câu đơn giản, ngôn ngữ đời thường và giọng văn chủ quan. Các đặc điểm này được mã hóa trong các tham số của nó.

3. Kích hoạt theo yêu cầu: Khi bạn đưa ra một prompt như "Hãy viết một bài đăng Facebook vui vẻ về lợi ích của việc uống cà phê", các từ khóa "Facebook", "vui vẻ" sẽ kích hoạt các phần của mô hình liên quan đến văn phong thân mật, ngắn gọn và hấp dẫn. Nó sẽ ưu tiên chọn các từ ngữ, cấu trúc câu phù hợp với giọng văn đó để tạo ra kết quả cuối cùng.

Mẹo tăng reach: Bạn có thể tận dụng điều này bằng cách yêu cầu AI: "Hãy viết lại bài blog này thành một chuỗi tweet." hoặc "Chuyển bài viết chuyên nghiệp này thành một kịch bản video TikTok gần gũi." để tối ưu hóa nội dung cho từng nền tảng.

8. Hạn chế cần biết

Kiến thức bị giới hạn (Knowledge Cutoff): Vì quá trình huấn luyện rất tốn kém, các LLM thường không được cập nhật liên tục. Do đó, chúng có thể không biết về các sự kiện, tin tức hoặc xu hướng mới xảy ra sau thời điểm dữ liệu của chúng được "chốt". Luôn kiểm tra thông tin về các sự kiện gần đây.
Không có "ý thức" hay "sự hiểu biết" thực sự: Cần nhắc lại rằng LLM là một cỗ máy khớp mẫu. Nó không có niềm tin, cảm xúc hay ý thức. Câu trả lời của nó hoàn toàn dựa trên xác suất thống kê.
Nhạy cảm với prompt (Prompt Sensitivity): Chất lượng đầu ra phụ thuộc rất nhiều vào cách bạn đặt câu hỏi. Một thay đổi nhỏ trong cách diễn đạt prompt có thể dẫn đến một câu trả lời hoàn toàn khác.

9. Tóm tắt & Q&A

Kết luận chính: LLM là công nghệ nền tảng cho cuộc cách mạng AI tạo sinh ngôn ngữ. Chúng là những bộ não nhân tạo khổng lồ, học bằng cách dự đoán từ trong một biển dữ liệu văn bản.
Ứng dụng thực tiễn: Sức mạnh của chúng đang thay đổi cách chúng ta viết lách, giao tiếp, và tìm kiếm thông tin.
Lời khuyên: Để khai thác tối đa sức mạnh của LLM, hãy học cách giao tiếp với nó một cách rõ ràng và cụ thể. Hãy hiểu rõ những hạn chế của nó để trở thành một người dùng thông thái và có tư duy phản biện.
Câu hỏi & Thảo luận: Mời các bạn đặt câu hỏi.

Tìm kiếm Blog này

Đỗ Ngọc Minh

Trí tuệ nhân tạo (AI) - Chuyên đề 2: Introduction to Large Language Models (Giới thiệu về Mô hình ngôn ngữ lớn)

Nhận xét

Đăng nhận xét

Bài đăng phổ biến từ blog này

CHATGPT PROMPTS FOR HRM

Data driven decision making

CHIẾN LƯỢC vs KẾ HOẠCH