Hướng dẫn cài đặt Stable Diffusion, tạo hình bằng AI miễn phí trên máy tính cá nhân

Đỗ Ngọc Vi

04/04/2023 | Lượt xem : 16357

Hướng dẫn cài đặt Stable Diffusion, tạo hình bằng AI miễn phí trên máy tính cá nhân

Xem nhanhẨn

Các ứng dụng AI hỗ trợ design hình ảnh bằng câu lệnh đang dần phổ biến, tuy nhiên, muốn có được một “chiếc ảnh” thực sự ưng ý, hầu hết chúng ta đều phải trả phí để trải nghiệm. Ứng dụng miễn phí như Bing Chat thì còn quá sơ sài và cho ra kết quả dễ thất vọng. Vậy nên, hôm nay Brandsketer sưu tầm, giới thiệu đến bạn một công cụ AI vừa MIỄN PHÍ vừa lại rất ĐÁNG CHÚ Ý. Việc của bạn là chỉ cần follow các bước cài đặt dưới đây, thử xem nhé!

Về Stable Diffusion WebUI, đây là một công cụ do AUTOMATIC1111 trên Github tạo ra. Ứng dụng mô hình ngôn ngữ được Stability AI phát triển, bạn có thể tận dụng sức mạnh phần cứng của máy tính cá nhân để tạo ra những hình ảnh theo ý muốn với giá 0đ.

Hướng dẫn anh em cài Stable Diffusion, tạo hình bằng AI miễn phí nhờ máy tính cá nhân

Dùng Stable Diffusion trên macOS

Trên MacOS, Stable Diffusion được phát triển thành một ứng dụng tên gọi DiffusionBee, chúng ta chỉ cần truy cập https://diffusionbee.com/ để tải về và cài đặt là xong.

Lưu ý rằng, Diffusion Bee chỉ dùng được trên:

- Những máy cấu hình trang bị chip Apple Silicon, không hỗ trợ Mac chạy chip Intel.

- Đã cập nhật lên phiên bản macOS Monterey.

Sau khi cài đặt, thử khởi động. Bạn sẽ thấy bản cài tự động tải về những thứ cần thiết để “chạy”, bao gồm cả model, thường gọi là checkpoint. Những checkpoint này về cơ bản là mô hình ngôn ngữ đã được huấn luyện, chỉ cần đọc lệnh prompt, nhập vào, phần mềm sẽ bắt đầu nội suy tạo ra hình ảnh theo từ khóa.

Dưới đây là các tùy chọn Advanced Options trong phần mềm bạn nên nắm rõ để có được những tấm hình ưng ý hơn:

Image Size: Kích thước hình tạo ra. DiffusionBee không hỗ trợ những thuật toán AI nâng chi tiết hình ảnh, và mô hình Stable Diffusion cơ bản được huấn luyện để tạo ra những tấm hình ở chất lượng 512x12 pixel là tối ưu nhất.
Steps: Số bước mô hình dữ liệu nội suy hình ảnh. Số bước càng cao thì hình càng có xu hướng chính xác, chi tiết, và dĩ nhiên là tốn nhiều thời gian. Số bước quá thấp thì tạo hình nhanh, nhưng chất lượng chi tiết thì rất thấp.
Seed: Tham số thuật toán AI dựa vào để tạo hình. Thông thường, tham số sẽ là một giá trị ngẫu nhiên. Khi trải nghiệm đủ nhiều và tạo ra được một hình ảnh với bố cục ưng ý, lời khuyên là hãy giữ con số Seed đó lại và tinh chỉnh từ khóa. Nếu để Seed ngẫu nhiên thì mỗi lần sẽ ra một tấm hình khác nhau hoàn toàn về cách nội suy.
Guidance Scale: Giá trị của tham số này từ 1 - 30. Số càng cao thì thuật toán AI sẽ càng tuân thủ nghiêm ngặt từ khóa được cung cấp. Giá trị càng thấp thì tác phẩm AI tạo ra sẽ càng có xu hướng “sáng tạo” theo cách riêng của nó.

Cài Stable Diffusion WebUI của AUTOMATIC1111 trên Windows

Trên các máy tính Windows, mặc dù quy trình cài đặt cũng như yêu cầu cấu hình, phức tạp hơn một chút so với macOS, nhưng bù lại chúng ta có thêm sự tự do khi ra lệnh tạo hình ảnh.

Đầu tiên, máy tính Windows của bạn phải có đủ các điều kiện sau:

Hệ điều hành Windows 10 trở lên.
Card đồ họa của Nvidia, vì Stable Diffusion WebUI chỉ hỗ trợ xử lý dựa trên tập lệnh và nhân CUDA trên GPU của Nvidia. Card rời cũng phải có VRAM tối thiểu 4GB trở lên. Đương nhiên trong quá trình nội suy, card đồ họa sở hữu VRAM càng lớn thì càng có lợi. Nhưng không phải ai cũng sở hữu card RTX 3090 hay 4090 để thử sáng tạo cùng AI.
Cũng có những giải pháp khác tương tự như AUTOMATIC1111, ví dụ như OnnxDiffuserUI, hỗ trợ card đồ họa Radeon của AMD, hoặc tùy chỉnh AUTOMATIC1111 để nó hỗ trợ card AMD.

Tiếp theo, đến bước cài Stable Diffusion WebUI:

Bước 1: Tải Python phiên bản mới nhất cho máy tính Windows trên trang web của Python, chọn bản cài Windows Installer (64-bit), tải về máy tính và cài đặt. Lưu ý: Khi cài Python, đừng quên ấn tick vào ô "Add Python 3.10 to PATH.

Bước 2: Tải và cài đặt Git for Windows tại đây. Chúng ta sẽ cần Git để cài và cập nhật AUTOMATIC1111, vì đây là giải pháp phần mềm hỗ trợ quản lý code.
Bước 3: Sau khi cài đặt cả Python lẫn Git, truy cập vào: https://github.com/AUTOMATIC1111/stable-diffusion-webui, ấn vào nút Code, rồi chọn Download ZIP để tải WebUI về máy tính.

Bước 4: Giải nén file ZIP vừa tải về từ GitHub, lưu vào một chỗ dễ nhớ, Desktop chẳng hạn.
Bước 5: Tự tải Checkpoint. Khi mới bắt đầu, hãy chọn checkpoint gốc của Stable Diffusion. Bản SD 2.1 được StabilityAI cho phép tải về ở đây: https://huggingface.co/stabilityai/stable-diffusion-2-1-base. Ấn vào dòng này để tải file v2-1_512-ema-pruned.ckpt về máy tính.

Không giống DiffusionBee trên macOS có sẵn checkpoint Stable Diffusion mà nhà phát triển ứng dụng tự động cập nhật, bản thân Stable Diffusion cũng chỉ là một phiên bản mô hình ngôn ngữ được nghiên cứu một cách phổ quát. Từ những phiên bản SD, mới nhất là phiên bản 2.1, rất nhiều người khác sẽ lấy nó làm nền tảng để huấn luyện những mô hình khác phục vụ đúng nhu cầu. Bạn có thể lên hai trang web Hugging Face và Civitai để tìm thêm những checkpoint khác được huấn luyện theo hướng chuyên biệt hóa trong quá trình tạo ra hình ảnh.

Bước 6: Tải xong file v2-1_512-ema-pruned.ckpt, mở folder “stable-diffusion-webui” đã giải nén trước đó, chọn tới folder models/Stable-diffusion rồi bỏ file checkpoint đã tải về vào trong thư mục ấy.
Bước 7: Quay trở lại thư mục “stable-diffusion-webui”, tìm tới tệp tin tên là webui.bat, mở file này lên. Một ô cửa sổ cmd sẽ hiện ra, trông giống như thế này:

Vì được khởi động lần đầu tiên nên phần mềm sẽ tải về đầy đủ những thứ nó cần để vận hành WebUI, bao gồm cả những mô hình nâng cấp hình ảnh, hay những plug-in cần thiết. Quá trình này sẽ diễn ra từ 5 đến 15 phút tùy thuộc vào tốc độ đường truyền internet của bạn. Khi cửa sổ cmd đưa ra dòng “Running on local IRL: http://127.0.0.1:7860” là thành công.

Bước 8: Mở trình duyệt, gõ http://127.0.0.1:7860 vào ô địa chỉ. Giao diện WebUI sẽ hiện ra cho và chúng ta có thể bắt đầu tạo hình ảnh từ thuật toán AI:

Làm thế nào để tạo ảnh bằng mô hình AI?

Giao diện WebUI có lẽ sẽ hơi rối hơn so với DiffusionBee trên macOS đã chia sẻ ở trên. Nhưng một khi đã nắm rõ hết mọi chi tiết cùng tính năng của từng chi tiết, thì chúng ta sẽ nhận ra công cụ này mạnh và tự do hơn rất nhiều so với DiffusionBee.

StableDiffusion checkpoint: Mô hình đã được huấn luyện để tạo hình ảnh nhờ từ khóa.
Prompt: Ô gõ từ khóa để thuật toán tạo hình ảnh.
Negative prompt: Những từ khóa có thể tạo ra những chi tiết hình ảnh không mong muốn, gõ những từ khóa này thì thuật toán sẽ lờ chúng đi trong quá trình nội suy hình ảnh.
Sampling method: Giải pháp lấy mẫu trong quá trình nội suy. Mỗi giải pháp lấy mẫu lại phù hợp với một dạng hình ảnh khác nhau. Có cái hợp với DDIM, có cái lại hợp hơn với DPM2 a. Chọn sampler nào phụ thuộc hoàn toàn vào quá trình thử nghiệm của bạn.
Restore faces: Dùng thuật toán CodeFormer để tinh chỉnh chi tiết gương mặt cho chân thực.
Tiling: Tạo ra những hình ảnh lặp đi lặp lại, rất hữu ích khi chế ra những hoa văn họa tiết mới.
Hires. fix: Dùng những thuật toán khác để tiếp tục nội suy, tăng độ phân giải.
Upscaler: Lựa chọn thuật toán để nội suy tăng độ phân giải hình ảnh.
Upscale by: Tỷ lệ tăng kích thước hình ảnh. Đừng để quá cao, vì dễ nội suy hỏng do hết VRAM. Hình cỡ lớn có thể tạo ra ở tab Extra, tốn ít tài nguyên máy tính hơn so với việc tăng kích thước hình cùng lúc với quá trình nội suy của AI.
Hires steps: Số bước thuật toán nội suy dùng để tăng độ phân giải và chi tiết hình ảnh.
Denoising strength: Mức độ can thiệp của thuật toán nâng cấp hình ảnh, chèn lên thuật toán tạo ra hình ảnh trước đó. Số càng thấp thì can thiệp càng ít.
CFG Scale: Viết tắt của Classifier Free Guidance, giống hệt DiffusionBee, số càng nhỏ thì hình ảnh càng có tính sáng tạo.
Seed: Tham số thuật toán dùng nội suy hình ảnh.

Sau khi đã làm quen xong hết thao tác và thông số quan trọng để tạo ra tấm hình ưng ý, giờ là lúc bạn tự do khám phá những từ khóa để thuật toán làm việc. Một ví dụ vui, cụ thể như sau:

Từ khóa nội suy: ((darth vader riding a vespa scooter on the street of raining Tokyo)), reflection on the ground, neon billboards, cyberpunk, Tokyo night, rembrandt light, fantasy, dramatic sky, cinematic, fisheye lens, f1.8, hyper realistic, ultra detail, photorealistic, high contrast
Số liệu nội suy: Steps: 35, Sampler: DPM++ SDE Karras, CFG scale: 6, Seed: 786709107, Face restoration: CodeFormer, Size: 768x512, Model hash: 88ecb78256, Model: v2-1_512-ema-pruned, Denoising strength: 0.2, Hires upscale: 2, Hires upscaler: R-ESRGAN 4x+

Đến đây là lúc mỗi mô hình ngôn ngữ khác nhau, được huấn luyện theo cách khác nhau phát huy tác dụng. Mỗi mô hình dựa trên Stable Diffusion đều có thế mạnh và nhược điểm khác nhau. Muốn tạo ra tấm hình ưng ý nhất luôn luôn phải trải qua quá trình thử sai để tìm ra lựa chọn tối ưu, tạo ra hình ảnh đẹp mắt nhất. Ví dụ:

Phiên bản Vanilla SD 2.1 model:

Phiên bản Deliberate V2:

Phiên bản Illuminati Diffusion V1.0:

Phiên bản Realism Engine V1.0:

Chúc các bạn trải nghiệm vui!

Nguồn: tinhte.vn

Tác giả bài viết

Đỗ Ngọc Vi Content Creator tại Brandsketer Việt Nam

Xin chào, tôi là Vi. Tôi đã làm việc với vai trò Content Creator trong hơn 5 năm, với kinh nghiệm hỗ trợ nhiều dự án Digital Marketing thành công, tôi thật sự tin tưởng "Content is King" - sức mạnh của câu chữ là vô thường!

Kết nối với tôi