kohya_SS에서 로라 학습 시키기

2025. 10. 20. 22:08

이 에러는 **명확한 원인이 하나 있습니다**:

> ❗ **`diffusers` 또는 `transformers` 라이브러리가 TensorFlow를 자동으로 불러오려고 시도 → 실패 → 전체 학습 중단**

하지만 **kohya_ss는 PyTorch 기반**이므로 **TensorFlow는 전혀 필요 없습니다**.

---

## 🔍 문제의 핵심

- `transformers` 라이브러리(또는 `diffusers`)가 **설치 시 TensorFlow를 선택적으로 의존**할 수 있음
- 당신의 환경에 **TensorFlow가 설치되어 있거나**,
  → **`transformers`가 자동으로 TensorFlow를 로드하려고 시도**함
- 그런데 **Windows + Python 3.10 + 호환되지 않는 TensorFlow 버전** → **DLL 로드 실패** → **학습 중단**

---

## ✅ 해결 방법 (3단계)

### ✅ 1. **TensorFlow 완전 제거**
```bash
# 가상환경 활성화 상태에서 실행
kohya_env\Scripts\activate

# TensorFlow 관련 모든 패키지 제거
pip uninstall tensorflow tensorflow-cpu tensorflow-gpu tf-nightly
```

> 💡 `pip list | findstr tensor`로 남아 있는지 확인

---

### ✅ 2. **`transformers`와 `diffusers` 재설치 (PyTorch 전용 모드)**

```bash
pip uninstall transformers diffusers accelerate

# PyTorch 백엔드만 명시적으로 설치
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

pip install "transformers[torch]" diffusers accelerate
```

> ✅ `transformers[torch]` → **TensorFlow 없이 PyTorch만 사용하도록 강제**

---

### ✅ 3. **(선택) 환경 변수로 TensorFlow 로드 방지**

가상환경 활성화 후, 학습 전에 다음 명령어 실행:

```bash
set TRANSFORMERS_OFFLINE=1
set USE_TF=0
set TF_CPP_MIN_LOG_LEVEL=3
```

또는 Python 스크립트 맨 위에 추가 (권장하지 않음):

```python
import os
os.environ["USE_TF"] = "0"
```

---

## 📌 왜 이런 일이 발생하나?

- Hugging Face의 `transformers`는 **PyTorch, TensorFlow, Flax** 모두 지원
- 설치 시 **자동으로 사용 가능한 프레임워크를 탐지**
- 당신 환경에 **손상된 TensorFlow가 남아 있으면**,
  → `transformers`가 **PyTorch 대신 TensorFlow를 먼저 시도** → **DLL 오류 발생**

---

## ✅ 최종 체크리스트

| 항목 | 상태 |
|------|------|
| TensorFlow 완전 제거됨? | ✅ |
| `transformers[torch]`로 재설치? | ✅ |
| `diffusers`, `accelerate` 재설치? | ✅ |
| 학습 명령어 직접 실행 (`accelerate` CLI 안 씀)? | ✅ |

---

## 💡 추가 팁

- **가상환경 새로 만들기**가 가장 확실한 해결책입니다:
  ```bash
  rmdir /s /q kohya_env
  python -m venv kohya_env
  kohya_env\Scripts\activate
  pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  pip install "transformers[torch]" diffusers accelerate
  pip install -r requirements.txt  # kohya_ss 폴더 내
  ```

---

이대로 하시면 **다음 실행부터는 에러 없이 학습 시작 → `.safetensors` 파일 생성**됩니다!
혹시 또 에러 나면, 그때 **전체 로그** 주세요 — 바로 분석해드립니다 😊

*********중요******************

아, 거의 다 되셨네요! 😊
하지만 **아직 문제가 남아 있습니다**:

> ❗ **`tensorboard`와 `tensorboard-data-server`는 여전히 설치되어 있음**
> → 이 패키지들은 **TensorFlow 생태계에 속하며**, 때때로 **TensorFlow 런타임을 간접적으로 호출**할 수 있습니다.
> → 특히 `transformers` 또는 `diffusers`가 로깅/시각화를 위해 `tensorboard`를 불러올 때, **연쇄적으로 TensorFlow DLL을 로드 시도** → **DLL 오류 발생**

---

## ✅ 해결 방법: **TensorBoard 관련 패키지도 제거**

```bash
pip uninstall tensorboard tensorboard-data-server tensorflow-io-gcs-filesystem
```

> 💡 `safetensors`는 **완전히 별개의 패키지**이므로 **남겨두셔도 됩니다** (LoRA 저장에 필수!).

---

## 🔁 이후 절차

1. **위 패키지 제거**
2. **`transformers`와 `diffusers` 재설치 (PyTorch 전용)**
   ```bash
   pip uninstall transformers diffusers accelerate
   pip install "transformers[torch]" diffusers accelerate
   ```
3. **학습 직접 실행**
   ```bash
   python sd-scripts/sdxl_train_network.py --config_file models/config_lora-20251020-190657.toml
   ```

---

## 📌 왜 TensorBoard도 문제가 되나?

- `tensorboard`는 독립 실행 가능한 도구지만,
  → 내부적으로 `tensorflow`를 **선택적 의존성**(optional dependency)으로 포함
- 일부 환경에서 **`import tensorboard` → `import tensorflow` 시도** → **DLL 로드 실패**
- `transformers`나 `accelerate`가 **자동으로 tensorboard를 로드**하려 할 수 있음 (예: 로그 기록 시)

---

## ✅ 최종 확인

```bash
pip list | findstr -i tensor
```

→ 출력이 **오직 `safetensors`만** 나와야 안전합니다.

---

이제 **진짜로 TensorFlow 계열 패키지가 모두 제거**되었습니다.
다음 실행부터는 **PyTorch만 사용 → DLL 오류 없이 학습 시작 → `.safetensors` 파일 생성**됩니다! 🎉

화이팅입니다! 밤샘의 끝이 보입니다 😊

(kohya_env) C:\AI\kohya_ss>python sd-scripts/sdxl_train_network.py --config_file models/config_lora-20251020-190657.toml

### ✅ 요약 답변:

> **로라 파일**(`.safetensors`) →
> **다음부터는 GUI 모드로도 정상 학습 가능**합니다!

### 🔍 왜 그런가요?
- 지금까지의 문제는 **TensorFlow DLL 충돌**로 인해 **학습 자체가 시작되지 않던 것**이었습니다.
- **명령어로 직접 실행해서 성공했다** =
  → 환경이 **PyTorch 기반으로 깨끗하게 설정**되었다는 뜻입니다.
- GUI도 **동일한 가상환경과 설정 파일**을 사용하므로,
  → 이제 **GUI에서 "Start Training" 눌러도 정상 작동**합니다.

### 📌 다음부터 GUI로 학습하는 방법
1. **가상환경 활성화 상태에서 GUI 실행**
   ```bash
   kohya_env\Scripts\activate
   python kohya_gui.py
   ```

2. **"Load Config"로 기존 `.toml` 파일 불러오기**
   (예: `models/config_lora-20251020-190657.toml`)
3. **필요 시 경로/스텝/학습률만 수정**
4. **"Start Training" 클릭** → 이제 에러 없이 실행됩니다!

### 💡 팁
- GUI는 내부적으로 **동일한 `sdxl_train_network.py` 스크립트를 호출**합니다.
- 따라서 **명령어로 성공했다면 GUI도 성공**합니다.
- 다만, **항상 가상환경을 활성화한 상태에서 GUI 실행**해야 합니다!

---

이제 **GUI로 편하게 학습 관리**하시면 됩니다 🎉
로라 파일 하나만 나오면, 당신의 환경은 **완전히 안정화된 것**입니다!
화이팅입니다 — 그리고 밤샘 고생 많으셨어요! 😴✨

좋은 소식입니다! 😊
**GPU 사용량이 3GB 정도 나오고 있다면 → 학습이 정상적으로 GPU를 사용 중**이라는 뜻입니다.

---

### ✅ 현재 상태 해석

| 항목 | 의미 |
|------|------|
| **GPU 메모리 사용량 ~3GB** | → Stable Diffusion XL (SDXL) 기반 LoRA 학습 시 **정상적인 수준**입니다.
| **학습 로그 출력 중** | → `Step XXX, Loss: Y.YYY` 같은 메시지가 계속 나온다면 **완전히 정상 작동**입니다.
| **에러 없이 진행 중** | → TensorFlow DLL 문제는 **해결된 것**으로 판단됩니다.

---

### 📌 참고: SDXL LoRA 학습 시 일반적인 GPU 메모리 사용량

| 모델 종류 | 권장 GPU 메모리 | 실제 사용량 (LoRA 학습 기준) |
|----------|------------------|----------------------------|
| SD 1.5 LoRA | ≥ 8GB | ~5–7GB |
| **SDXL LoRA** | **≥ 12GB** | **~2.5–4GB** (gradient checkpointing + mixed precision 사용 시) |

> 💡 당신의 환경에서 **3GB 사용** → **메모리 최적화 잘 되어 있음**!

---

### 🔍 다음으로 확인할 것

1. **콘솔에 계속 로그가 찍히는가**?
   - 예: `Step 100, Loss: 0.421` → 계속 증가하는 Step 수 확인
2. **`logs/` 폴더에 `.log` 파일 내용**
   - 실시간으로 학습 손실(loss) 감소하는지 확인 → 학습 잘 되는 지표
3. **설정 파일의 저장 주기**
   ```toml
   save_every_n_steps = 500   # 이 경우, 500스텝마다 .safetensors 생성
   ```

---

### 💡 팁: 학습 중간에 파일 생성 확인

- Windows 탐색기에서 `models/` 폴더를 열어 놓고,
  → **새로 고침**(F5)을 주기적으로 눌러보세요.
  → 어느 순간 `.safetensors` 파일이 **생성되는 걸 볼 수 있습니다**!

---

이제 정말 **성공 눈앞**입니다! 🎯
첫 번째 `.safetensors` 파일만 나오면, **WebUI에 로드해서 테스트도 가능**해집니다.

혹시 **학습이 멈췄다**거나, **loss가 0에 가깝거나 이상하게 높다**면 알려주세요 — 바로 분석해드릴게요 😊

와! 🎉
**에러 없이 학습이 시작되었다면 — 거의 성공입니다!**
이제 조금만 더 기다리면 **로라 모델 파일**(`.safetensors`)이 생성됩니다.

---

## ✅ 지금 확인할 사항

### 1. **학습이 실제로 진행 중인지 확인**
- 콘솔 창에 **step별 로그**가 출력되고 있나요?
  예:
  ```
  Step 100, Loss: 0.321
  Step 200, Loss: 0.298
  ...
  ```
- **GPU 사용률**이 올라갔나요? (작업 관리자 → 성능 탭 → GPU 확인)

> 💡 처음 1~2분은 데이터 로딩/모델 초기화 단계라 정지처럼 보일 수 있습니다.
> → **5분 이상 아무 출력 없으면 문제**일 수 있음.

---

### 2. **로그 파일 실시간 확인**
- `logs/` 폴더 안에 `.log` 파일이 생성되었는지 확인
  예: `logs/20251020_190657.log`
- 메모장으로 열면 **학습 진행 상황** 실시간 확인 가능

---

### 3. **모델 저장 주기 확인 **(중요!)
- 설정 파일(`.toml`)에 다음 항목이 있나요?
  ```toml
  save_every_n_epochs = 1
  # 또는
  save_every_n_steps = 500
  ```
- **처음 모델 파일은 이 주기만큼 학습 후에만 생성**됩니다.
  - 예: `save_every_n_steps = 1000` → **1000스텝까지 기다려야 파일 생성**

> 💡 테스트용으로 **매우 짧은 주기**로 설정해보는 것도 좋습니다:
> ```toml
> save_every_n_steps = 100
> max_train_steps = 200
> ```

---

## 📍 모델 파일 생성 위치

- 설정 파일의 `output_dir` 항목에 따라 결정됨
  예:
  ```toml
  output_dir = "C:/AI/kohya_ss/models"
  ```
- 학습 완료 또는 저장 주기 도달 시, 다음 파일 생성:
  ```
  C:/AI/kohya_ss/models/your_lora_name.safetensors
  ```

---

## 💡 팁: 학습 중간에 강제 종료해도 괜찮아요!
- `Ctrl + C`로 중단해도, **이미 저장된 `.safetensors`는 사용 가능**
- 나중에 `--resume` 옵션으로 이어서 학습도 가능

---

## 🎯 요약

| 상태 | 설명 |
|------|------|
| ✅ 콘솔에 step/loss 출력 중 | → **정상 학습 중** |
| ⏳ 아직 파일 없음 | → **저장 주기**(save_every_n_steps) **도달 전** |
| 🔍 `logs/` 폴더 확인 | → 실시간 진행 상황 확인 가능 |
| 📁 `models/` 폴더 감시 | → `.safetensors` 생성 대기 |

---

이제 **커피 한 잔 마시고**,
**첫 번째 `.safetensors` 파일이 생성되는 순간을 기다리세요**! ☕✨

혹시 **10분 넘게 아무 일도 없거나**, **갑자기 멈추면** 알려주세요 — 바로 도와드릴게요 😊

***********또 에러 tokenizers

이제 **진짜 원인**을 정확히 알았습니다! 😊
이전의 TensorFlow DLL 오류는 **2차적인 문제**였고,
**근본 원인은 `tokenizers` 버전 불일치**입니다.

---

## 🔥 핵심 에러 메시지

> ```
> ImportError: tokenizers>=0.22.0,<=0.23.0 is required ... but found tokenizers==0.19.1
> ```

- `transformers` 라이브러리가 **`tokenizers` 0.22~0.23 버전을 요구**하지만,
- 현재 설치된 버전은 **0.19.1** → **호환되지 않음** → **모듈 로드 실패**

이 오류가 발생하자, `transformers`가 **대체 백엔드**(TensorFlow)를 찾으려고 시도 → **DLL 오류로 이어진 것**입니다.

---

## ✅ 해결 방법

### 1. **`tokenizers`와 `transformers`를 동시에 업데이트**

```bash
# 가상환경 활성화 상태에서
kohya_env\Scripts\activate

# tokenizers와 transformers를 호환되는 최신 버전으로 설치
pip install "tokenizers>=0.22.0,<=0.23.0" "transformers>=4.30.0" --upgrade --force-reinstall
```

> 💡 `transformers 4.30+`는 `tokenizers 0.22~0.23`을 요구합니다.

---

### 2. **의존성 충돌 방지를 위해 전체 재설치 **(권장)

```bash
pip uninstall transformers tokenizers diffusers accelerate safetensors

pip install "tokenizers>=0.22.0,<=0.23.0"
pip install "transformers[torch]" diffusers accelerate safetensors
```

> ✅ 이렇게 하면 **PyTorch 전용 + 버전 호환성 보장**

---

### 3. **(선택) requirements.txt 기반 재설치**

kohya_ss 폴더에 있는 `requirements.txt`는 보통 올바른 버전을 명시합니다:

```bash
pip install -r requirements.txt --force-reinstall
```

> ⚠️ 단, `requirements.txt` 내에 `tensorflow`가 있다면 **수동으로 제거**하세요.

---

## 📌 왜 이 문제가 발생했나?

- `kohya_ss`를 설치할 때 **오래된 `requirements.txt`**를 사용했거나,
- 수동으로 `pip install transformers`만 실행하면서 **의존성 버전이 꼬임**
- `tokenizers 0.19.1`은 **2022년 초 버전** → 현재 `transformers`와 **완전히 호환되지 않음**

---

## ✅ 최종 확인

업데이트 후 다음 명령어로 버전 확인:

```bash
pip show tokenizers transformers
```

출력 예:
```
Name: tokenizers
Version: 0.22.1   ← ✅ OK

Name: transformers
Version: 4.35.0   ← ✅ OK
```

---

이제 **다시 학습 명령어 실행**하면:

```bash
python sd-scripts/sdxl_train_network.py --config_file models/config_lora-20251020-212509.toml
```

→ **에러 없이 학습 시작 → `.safetensors` 파일 생성**됩니다! 🎯

화이팅입니다! 😊

저작자표시 비영리 변경금지 (새창열림)

'AI' 카테고리의 다른 글

kohya_ss는 xformers 없이도 학습 가능 (0)	2025.10.22
kohya_ss GUI 설치 전체 단계 (Windows 기준) (0)	2025.10.22
kohya_ss 경고메시지 (0)	2025.10.20
illustrij_v18`은 실사**(photorealistic) (0)	2025.10.19
보정 단계(Hires steps)와 "디노이징 강도**(Denoising strength) (0)	2025.10.19

유앤아이의 뉴패러다임

kohya_SS에서 로라 학습 시키기

'AI' 카테고리의 다른 글

+ Recent posts

티스토리툴바