Recruit 01: Giới thiệu về AI agent trong Copilot Studio

Trước khi bắt tay dựng agent đầu tiên, bạn cần nắm chắc các khái niệm AI tạo nên chúng. Một AI agent không phải là phép màu: nó được lắp ghép từ những thành phần rất cụ thể — khả năng hiểu ngôn ngữ tự nhiên (conversational AI), bộ não dự đoán ngôn ngữ là mô hình ngôn ngữ lớn (LLM), cơ chế tra cứu dữ liệu tươi mới (RAG) và một kiến trúc điều phối quyết định khi nào nói, khi nào hành động. Lab Recruit 01 trang bị toàn bộ nền tảng đó, dựa trên bài học gốc Introduction to Agents của Microsoft Agent Academy, để bạn hiểu vì sao một AI agent trong Copilot Studio lại trả lời thông minh và làm được việc thật.

Mục tiêu lab
Sau khi hoàn thành lab này, bạn sẽ:
- Hiểu conversational AI là gì và vì sao trải nghiệm trò chuyện với máy lại cảm giác tự nhiên đến vậy.
- Nắm cách LLM vận hành ở mức nguyên lý: training data, tokenization, context window và prompting.
- Hiểu RAG (retrieval-augmented generation) giúp agent trả lời theo dữ liệu cập nhật và giảm bịa (hallucination).
- Phân biệt rõ AI agent hội thoại (conversational) với AI agent tự trị (autonomous) qua ví dụ thực tế.
- Thấy cách Copilot Studio gộp cả hai kịch bản dưới một khung thiết kế trực quan, kéo-thả.
Các bước chính để hiểu AI agent
- Conversational AI — lớp giao tiếp. Conversational AI là bất kỳ hệ thống nào có thể hiểu, xử lý và phản hồi ngôn ngữ con người — văn bản hoặc giọng nói — theo cách tự nhiên. Đó là chatbot trên website giúp bạn tra cứu đơn hàng đang ở đâu, hay trợ lý ảo trong các ứng dụng quen thuộc. Đây chính là lớp giao tiếp ngoài cùng của một AI agent: nó tiếp nhận câu hỏi của người dùng bằng ngôn ngữ tự nhiên thay vì bắt họ học cú pháp lệnh. Dưới lớp vỏ ấy, hầu hết hệ thống conversational AI hiện đại đều dựa trên mô hình ngôn ngữ lớn (LLM).
- LLM 101 — bộ não dự đoán ngôn ngữ. LLM là mạng nơ-ron được huấn luyện trên khối lượng văn bản khổng lồ; chúng học các quy luật thống kê của ngôn ngữ để sinh câu mạch lạc, trả lời câu hỏi và sáng tạo nội dung. Cần nắm bốn ý: (1) Training data — mô hình ngốn hàng terabyte văn bản (trang web, sách, bài báo), tạo nên ‘kiến thức thế giới’; (2) Tokenization — văn bản được cắt thành các đơn vị nhỏ gọi là token, và mô hình dự đoán từng token một; (3) Context window — mỗi LLM chỉ ‘nhìn’ được một số token nhất định cùng lúc, vượt quá giới hạn thì phần cũ bị rút gọn; (4) Prompting — bạn tương tác bằng cách gửi một prompt, và prompt càng rõ thì câu trả lời càng tập trung. Một ví von hữu ích: LLM giống như ‘autocomplete siêu thông minh’ — nó không thật sự hiểu nghĩa như não người, nhưng cực giỏi dự đoán từ (hoặc cụm từ) hợp lý tiếp theo.
- RAG — tra cứu dữ liệu tươi mới. Nếu chỉ dựa vào dữ liệu huấn luyện tĩnh, LLM dễ bịa (hallucinate) hoặc trả lời lỗi thời. RAG khắc phục điều này bằng cách cho mô hình ‘tra cứu’ thông tin mới trước khi soạn câu trả lời, theo bốn bước: (1) User query — người dùng đặt câu hỏi, ví dụ ‘Doanh thu quý mới nhất của Contoso là bao nhiêu?’; (2) Retriever — hệ thống truy vấn nguồn tri thức (tài liệu, website công khai, cơ sở dữ liệu nội bộ, thư viện SharePoint) để tìm thông tin liên quan; (3) Augmentation — dữ liệu tìm được được ghép vào prompt gửi cho LLM; (4) Generation — LLM nhận cả câu hỏi lẫn ngữ cảnh vừa lấy về rồi sinh câu trả lời được ‘grounded’ theo dữ liệu cập nhật. Nhờ RAG, agent có thể gọi wiki nội bộ, API hay tra cơ sở FAQ và trả lời vượt ra ngoài giới hạn dữ liệu huấn luyện.
- AI agent hội thoại (conversational). Agent hội thoại cần đối thoại hai chiều (văn bản hoặc giọng nói) để hoạt động, giữ ngữ cảnh qua nhiều lượt trò chuyện và có thể móc nối với công cụ/API bên ngoài — ví dụ gọi một luồng Power Automate, gửi lời mời lịch hay thao tác dữ liệu trong Dataverse. Loại này hợp với hỗ trợ khách hàng, FAQ, các tương tác có hướng dẫn hoặc hỏi-đáp đơn giản. Ví dụ: một agent trong Microsoft Teams trả lời câu hỏi về chính sách nhân sự, hay một agent trên website công khai giải đáp về sản phẩm của bạn. Đặc trưng: nó chờ người dùng nhập liệu mới phản hồi.
- AI agent tự trị (autonomous). Agent tự trị vượt khỏi kiểu chat qua lại: nó có thể khởi động và thực hiện hành động thay người dùng. Nó dùng vòng lặp suy luận của LLM theo mô hình ‘lập kế hoạch → hành động → quan sát → lập lại kế hoạch’ để hoàn thành tác vụ, đồng thời cũng móc nối được công cụ/API bên ngoài. Khác biệt cốt lõi: agent tự trị có thể chạy theo trigger bên ngoài và xử lý quy trình nhiều bước mà không cần con người nhắc liên tục. Ví dụ: một agent tự lập lịch trình công tác, đặt vé máy bay rồi gửi email xác nhận ngay khi bạn tạo yêu cầu trong hệ thống nội bộ; hay một ‘Meeting Summarizer’ tham gia cuộc gọi Teams, ghi lại theo thời gian thực và viết tóm tắt vào OneNote.
- AI agent trong Copilot Studio. Copilot Studio gộp cả hai kịch bản hội thoại và tự trị dưới một khung thống nhất. Nền tảng cung cấp: Visual Agent Designer (canvas kéo-thả để dựng, kiểm thử, triển khai agent); lựa chọn mô hình LLM phù hợp từng kịch bản; tích hợp sẵn cho SharePoint, OneDrive, Dataverse — bật RAG ngay lập tức; khả năng móc nối công cụ/API để agent hành động; hỗ trợ đa phương thức (tải tệp, hội thoại giọng nói); và nhiều kênh xuất bản như Microsoft 365 Copilot, nhúng vào website hoặc các kênh phân phối khác.

AI agent: điểm cốt lõi cần nắm
- LLM không ‘hiểu’ như con người mà rất giỏi dự đoán token kế tiếp — prompt tốt mới cho kết quả tốt.
- RAG là chìa khoá để một AI agent doanh nghiệp trả lời chính xác theo dữ liệu nội bộ thay vì nói chung chung.
- Context window là hữu hạn: đừng kỳ vọng agent ‘nhớ’ vô hạn — hãy thiết kế hội thoại và nguồn tri thức gọn, rõ.
- Chọn loại AI agent theo bài toán: hội thoại cho hỏi-đáp tương tác, tự trị cho tự động hoá quy trình nhiều bước.
- Copilot Studio cho phép kết hợp linh hoạt cả hai phong cách trong cùng một agent.

Góc nhìn cho người học Việt Nam
Với đội ngũ IT và nghiệp vụ tại Việt Nam, hiểu rõ LLM và RAG là bước đệm quan trọng nhất. Phần lớn tài liệu nội bộ — quy định, quy trình, mô tả sản phẩm — đều bằng tiếng Việt và thay đổi liên tục, nên một AI agent chỉ dựa vào dữ liệu huấn luyện sẵn sẽ trả lời sai hoặc lỗi thời. Khi nắm được cơ chế RAG, bạn sẽ biết cách kết nối agent tới đúng nguồn grounding (thư viện SharePoint phòng ban, wiki nội bộ, cơ sở dữ liệu) để câu trả lời bám sát chính sách thực tế của tổ chức. Tương tự, hiểu giới hạn của context window và vai trò của prompt giúp bạn viết hướng dẫn ngắn gọn, đặt kỳ vọng đúng và tránh tình trạng agent ‘quên’ ngữ cảnh giữa chừng. Một lời khuyên thực dụng: hãy bắt đầu từ những bài toán hỏi-đáp có ranh giới rõ ràng (ví dụ tra cứu chính sách nghỉ phép) bằng AI agent hội thoại, rồi mới mở rộng sang các kịch bản tự trị khi quy trình đã được chuẩn hoá. Cách tiếp cận từng bước này giúp giảm rủi ro và xây niềm tin của người dùng cuối vào agent.
Bài tiếp theo
Tiếp tục với Recruit 02: Nền tảng Copilot Studio để đi sâu hơn trong lộ trình.
Kết luận
Nắm vững conversational AI, cách LLM dự đoán ngôn ngữ, cơ chế RAG để tra cứu dữ liệu và sự khác biệt giữa hai loại AI agent — hội thoại và tự trị — chính là nền móng vững chắc cho cả lộ trình Agent Academy. Khi đã hiểu ‘vì sao’ agent hoạt động được, bạn sẽ thiết kế chúng có chủ đích hơn rất nhiều. Bài tiếp theo sẽ mổ xẻ bốn khối xây dựng nên mọi agent trong Copilot Studio: Knowledge, Tools, Topics và Instructions.
Bài viết thuộc series Hands-on Labs theo Agent Academy — Recruit 01: Introduction to Agents. Theo dõi Office365Vietnam.info để cập nhật các bài lab mới nhất về Copilot Studio và AI agent.
