Add slide and rotate interactive captcha solvers

New solver subsystem with independent models: - GapDetectorCNN (1x128x256 grayscale → sigmoid) for slide gap detection - RotationRegressor (3x128x128 RGB → sin/cos via tanh) for rotation angle prediction - SlideSolver with 3-tier strategy: template match → edge detect → CNN fallback - RotateSolver with ONNX sin/cos → atan2 inference - Generators, training scripts, CLI commands, and slide track utility Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-11 18:07:06 +08:00
parent 90d6423551
commit 9b5f29083e
20 changed files with 1440 additions and 10 deletions
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -33,7 +33,10 @@ captcha-breaker/
 │   │   ├── 3d_text/
 │   │   ├── 3d_rotate/
 │   │   └── 3d_slider/
-│   └── classifier/              # 调度分类器训练数据 (混合各类型)
+│   ├── classifier/              # 调度分类器训练数据 (混合各类型)
 │   └── solver/                  # Solver 训练数据
 │       ├── slide/               # 滑块缺口检测训练数据
 │       └── rotate/              # 旋转角度回归训练数据
 ├── generators/
 │   ├── __init__.py
 │   ├── base.py                  # 生成器基类
@@ -41,13 +44,17 @@ captcha-breaker/
 │   ├── math_gen.py              # 算式验证码生成器 (如 3+8=?)
 │   ├── threed_gen.py            # 3D立体文字验证码生成器
 │   ├── threed_rotate_gen.py     # 3D旋转验证码生成器
-│   └── threed_slider_gen.py     # 3D滑块验证码生成器
+│   ├── threed_slider_gen.py     # 3D滑块验证码生成器
 │   ├── slide_gen.py             # 滑块缺口训练数据生成器
 │   └── rotate_solver_gen.py     # 旋转求解器训练数据生成器
 ├── models/
 │   ├── __init__.py
 │   ├── lite_crnn.py             # 轻量 CRNN (用于普通字符和算式)
 │   ├── classifier.py            # 调度分类模型
 │   ├── threed_cnn.py            # 3D文字验证码专用模型 (更深的CNN)
-│   └── regression_cnn.py        # 回归CNN (3D旋转+滑块, ~1MB)
+│   ├── regression_cnn.py        # 回归CNN (3D旋转+滑块, ~1MB)
 │   ├── gap_detector.py          # 滑块缺口检测CNN (~1MB)
 │   └── rotation_regressor.py    # 旋转角度回归 sin/cos (~2MB)
 ├── training/
 │   ├── __init__.py
 │   ├── train_classifier.py      # 训练调度模型
@@ -56,6 +63,8 @@ captcha-breaker/
 │   ├── train_3d_text.py         # 训练3D文字识别
 │   ├── train_3d_rotate.py       # 训练3D旋转回归
 │   ├── train_3d_slider.py       # 训练3D滑块回归
 │   ├── train_slide.py           # 训练滑块缺口检测
 │   ├── train_rotate_solver.py   # 训练旋转角度回归
 │   ├── train_utils.py           # CTC 训练通用逻辑
 │   ├── train_regression_utils.py # 回归训练通用逻辑
 │   └── dataset.py               # 通用 Dataset 类
@@ -64,20 +73,32 @@ captcha-breaker/
 │   ├── pipeline.py              # 核心推理流水线 (调度+识别)
 │   ├── export_onnx.py           # PyTorch → ONNX 导出脚本
 │   └── math_eval.py             # 算式计算模块
 ├── solvers/                     # 交互式验证码求解器
 │   ├── __init__.py
 │   ├── base.py                  # 求解器基类
 │   ├── slide_solver.py          # 滑块求解 (OpenCV + CNN)
 │   └── rotate_solver.py         # 旋转求解 (ONNX sin/cos)
 ├── utils/
 │   ├── __init__.py
 │   └── slide_utils.py           # 滑块轨迹生成工具
 ├── checkpoints/                 # 训练产出的模型文件
 │   ├── classifier.pth
 │   ├── normal.pth
 │   ├── math.pth
 │   ├── threed_text.pth
 │   ├── threed_rotate.pth
-│   └── threed_slider.pth
+│   ├── threed_slider.pth
 │   ├── gap_detector.pth
 │   └── rotation_regressor.pth
 ├── onnx_models/                 # 导出的 ONNX 模型
 │   ├── classifier.onnx
 │   ├── normal.onnx
 │   ├── math.onnx
 │   ├── threed_text.onnx
 │   ├── threed_rotate.onnx
-│   └── threed_slider.onnx
+│   ├── threed_slider.onnx
 │   ├── gap_detector.onnx
 │   └── rotation_regressor.onnx
 ├── server.py                    # FastAPI 推理服务 (可选)
 ├── cli.py                       # 命令行入口
 └── tests/
@@ -462,3 +483,62 @@ uv run python cli.py serve --port 8080
 6. 实现 cli.py 统一入口
 7. 可选: server.py HTTP 服务
 8. 编写 tests/
 ## 交互式 Solver 扩展
 ### 概述
 在现有验证码识别架构之上，新增滑块 (slide) 和旋转 (rotate) 两种交互式验证码求解能力。与现有 3d_rotate/3d_slider 的区别：
 - **3d_slider** (合成拼图回归) → **slide solver**: 真实滑块验证码，OpenCV 优先 + CNN 兜底
 - **3d_rotate** (合成圆盘 sigmoid 回归) → **rotate solver**: 真实旋转验证码，sin/cos 编码 + 自然图
 每个 solver 模型独立训练、独立导出 ONNX、独立替换，互不依赖。
 ### 滑块求解器 (SlideSolver)
 - 三种方法按优先级: 模板匹配 → 边缘检测 → CNN 兜底
 - 模型: `GapDetectorCNN` (1x128x256 灰度 → sigmoid [0,1])
 - OpenCV 延迟导入，未安装时退化到 CNN only
 - 输出: `{"gap_x", "gap_x_percent", "confidence", "method"}`
 ### 旋转求解器 (RotateSolver)
 - ONNX 推理 → (sin, cos) → atan2 → 角度
 - 模型: `RotationRegressor` (3x128x128 RGB → tanh (sin θ, cos θ))
 - 输出: `{"angle", "confidence"}`
 ### Solver CLI 用法
 ```bash
 # 生成训练数据
 uv run python cli.py generate-solver slide --num 30000
 uv run python cli.py generate-solver rotate --num 50000
 # 训练 (各模型独立)
 uv run python cli.py train-solver slide
 uv run python cli.py train-solver rotate
 # 求解
 uv run python cli.py solve slide --bg bg.png [--tpl tpl.png]
 uv run python cli.py solve rotate --image img.png
 # 导出 (已集成到 export --all)
 uv run python cli.py export --model gap_detector
 uv run python cli.py export --model rotation_regressor
 ```
 ### 滑块轨迹生成
 `utils/slide_utils.py` 提供 `generate_slide_track(distance)`:
 - 贝塞尔曲线 ease-out 加速减速
 - y 轴 ±1~3px 随机抖动
 - 时间间隔不均匀
 - 末尾微小过冲回退
 ### Solver 目标指标
 | 模型 | 准确率目标 | 推理延迟 | 模型体积 |
 |------|-----------|---------|---------|
 | 滑块 CNN (±5px) | > 85% | < 30ms | ~1MB |
 | 旋转回归 (±5°) | > 85% | < 30ms | ~2MB |
--- a/cli.py
+++ b/cli.py
@@ -13,6 +13,11 @@ CaptchaBreaker 命令行入口
    python cli.py predict image.png --type normal
    python cli.py predict-dir ./test_images/
    python cli.py serve --port 8080
    python cli.py generate-solver slide --num 30000
    python cli.py train-solver slide
    python cli.py train-solver rotate
    python cli.py solve slide --bg bg.png [--tpl tpl.png]
    python cli.py solve rotate --image img.png
 """
 import argparse
@@ -195,6 +200,90 @@ def cmd_serve(args):
    uvicorn.run(app, host=args.host, port=args.port)
 def cmd_generate_solver(args):
    """生成 solver 训练数据。"""
    from config import SLIDE_DATA_DIR, ROTATE_SOLVER_DATA_DIR
    from generators.slide_gen import SlideDataGenerator
    from generators.rotate_solver_gen import RotateSolverDataGenerator
    solver_type = args.type
    num = args.num
    gen_map = {
        "slide": (SlideDataGenerator, SLIDE_DATA_DIR),
        "rotate": (RotateSolverDataGenerator, ROTATE_SOLVER_DATA_DIR),
    }
    if solver_type not in gen_map:
        print(f"未知 solver 类型: {solver_type}  可选: {', '.join(gen_map.keys())}")
        sys.exit(1)
    gen_cls, out_dir = gen_map[solver_type]
    out_dir.mkdir(parents=True, exist_ok=True)
    print(f"生成 solver/{solver_type} 数据: {num} 张 → {out_dir}")
    gen = gen_cls()
    gen.generate_dataset(num, str(out_dir))
 def cmd_train_solver(args):
    """训练 solver 模型。"""
    solver_type = args.type
    if solver_type == "slide":
        from training.train_slide import main as train_fn
    elif solver_type == "rotate":
        from training.train_rotate_solver import main as train_fn
    else:
        print(f"未知 solver 类型: {solver_type}  可选: slide, rotate")
        sys.exit(1)
    train_fn()
 def cmd_solve(args):
    """求解验证码。"""
    solver_type = args.type
    if solver_type == "slide":
        from solvers.slide_solver import SlideSolver
        bg_path = args.bg
        tpl_path = getattr(args, "tpl", None)
        if not Path(bg_path).exists():
            print(f"文件不存在: {bg_path}")
            sys.exit(1)
        solver = SlideSolver()
        result = solver.solve(bg_path, template_image=tpl_path)
        print(f"背景图: {bg_path}")
        if tpl_path:
            print(f"模板图: {tpl_path}")
        print(f"缺口 x:     {result['gap_x']} px")
        print(f"缺口 x%:    {result['gap_x_percent']:.4f}")
        print(f"置信度:     {result['confidence']:.4f}")
        print(f"方法:       {result['method']}")
    elif solver_type == "rotate":
        from solvers.rotate_solver import RotateSolver
        image_path = args.image
        if not Path(image_path).exists():
            print(f"文件不存在: {image_path}")
            sys.exit(1)
        solver = RotateSolver()
        result = solver.solve(image_path)
        print(f"图片:   {image_path}")
        print(f"角度:   {result['angle']}°")
        print(f"置信度: {result['confidence']}")
    else:
        print(f"未知 solver 类型: {solver_type}  可选: slide, rotate")
        sys.exit(1)
 def main():
    parser = argparse.ArgumentParser(
        prog="captcha-breaker",
@@ -247,6 +336,22 @@ def main():
    p_serve.add_argument("--host", default="0.0.0.0", help="监听地址 (默认 0.0.0.0)")
    p_serve.add_argument("--port", type=int, default=8080, help="监听端口 (默认 8080)")
    # ---- generate-solver ----
    p_gen_solver = subparsers.add_parser("generate-solver", help="生成 solver 训练数据")
    p_gen_solver.add_argument("type", help="solver 类型: slide, rotate")
    p_gen_solver.add_argument("--num", type=int, required=True, help="生成数量")
    # ---- train-solver ----
    p_train_solver = subparsers.add_parser("train-solver", help="训练 solver 模型")
    p_train_solver.add_argument("type", help="solver 类型: slide, rotate")
    # ---- solve ----
    p_solve = subparsers.add_parser("solve", help="求解交互式验证码")
    p_solve.add_argument("type", help="solver 类型: slide, rotate")
    p_solve.add_argument("--bg", help="背景图路径 (slide 必需)")
    p_solve.add_argument("--tpl", default=None, help="模板图路径 (slide 可选)")
    p_solve.add_argument("--image", help="图片路径 (rotate 必需)")
    args = parser.parse_args()
    if args.command is None:
@@ -260,6 +365,9 @@ def main():
        "predict": cmd_predict,
        "predict-dir": cmd_predict_dir,
        "serve": cmd_serve,
        "generate-solver": cmd_generate_solver,
        "train-solver": cmd_train_solver,
        "solve": cmd_solve,
    }
    cmd_map[args.command](args)
--- a/config.py
+++ b/config.py
@@ -34,6 +34,11 @@ REAL_3D_TEXT_DIR = REAL_DIR / "3d_text"
 REAL_3D_ROTATE_DIR = REAL_DIR / "3d_rotate"
 REAL_3D_SLIDER_DIR = REAL_DIR / "3d_slider"
 # Solver 数据目录
 SOLVER_DATA_DIR = DATA_DIR / "solver"
 SLIDE_DATA_DIR = SOLVER_DATA_DIR / "slide"
 ROTATE_SOLVER_DATA_DIR = SOLVER_DATA_DIR / "rotate"
 # ============================================================
 # 模型输出目录
 # ============================================================
@@ -47,6 +52,7 @@ for _dir in [
    REAL_NORMAL_DIR, REAL_MATH_DIR,
    REAL_3D_TEXT_DIR, REAL_3D_ROTATE_DIR, REAL_3D_SLIDER_DIR,
    CLASSIFIER_DIR, CHECKPOINTS_DIR, ONNX_DIR,
    SLIDE_DATA_DIR, ROTATE_SOLVER_DATA_DIR,
 ]:
    _dir.mkdir(parents=True, exist_ok=True)
@@ -241,3 +247,40 @@ SERVER_CONFIG = {
    "host": "0.0.0.0",
    "port": 8080,
 }
 # ============================================================
 # Solver 配置 (交互式验证码求解)
 # ============================================================
 SOLVER_CONFIG = {
    "slide": {
        "canny_low": 50,
        "canny_high": 150,
        "cnn_input_size": (128, 256),   # H, W
    },
    "rotate": {
        "input_size": (128, 128),       # H, W
        "channels": 3,                   # RGB
    },
 }
 SOLVER_TRAIN_CONFIG = {
    "slide_cnn": {
        "epochs": 50,
        "batch_size": 64,
        "lr": 1e-3,
        "synthetic_samples": 30000,
        "val_split": 0.1,
    },
    "rotate": {
        "epochs": 80,
        "batch_size": 64,
        "lr": 5e-4,
        "synthetic_samples": 50000,
        "val_split": 0.1,
    },
 }
 SOLVER_REGRESSION_RANGE = {
    "slide": (0, 1),      # 归一化百分比
    "rotate": (0, 360),   # 角度
 }
--- a/generators/init.py
+++ b/generators/init.py
@@ -1,12 +1,14 @@
 """
 数据生成器包
-提供五种验证码类型的数据生成器：
+提供七种验证码类型的数据生成器：
 - NormalCaptchaGenerator: 普通字符验证码
 - MathCaptchaGenerator: 算式验证码
 - ThreeDCaptchaGenerator: 3D 立体文字验证码
 - ThreeDRotateGenerator: 3D 旋转验证码
 - ThreeDSliderGenerator: 3D 滑块验证码
 - SlideDataGenerator: 滑块验证码求解器训练数据
 - RotateSolverDataGenerator: 旋转验证码求解器训练数据
 """
 from generators.base import BaseCaptchaGenerator
@@ -15,6 +17,8 @@ from generators.math_gen import MathCaptchaGenerator
 from generators.threed_gen import ThreeDCaptchaGenerator
 from generators.threed_rotate_gen import ThreeDRotateGenerator
 from generators.threed_slider_gen import ThreeDSliderGenerator
 from generators.slide_gen import SlideDataGenerator
 from generators.rotate_solver_gen import RotateSolverDataGenerator
 __all__ = [
    "BaseCaptchaGenerator",
@@ -23,4 +27,6 @@ __all__ = [
    "ThreeDCaptchaGenerator",
    "ThreeDRotateGenerator",
    "ThreeDSliderGenerator",
    "SlideDataGenerator",
    "RotateSolverDataGenerator",
 ]
--- a/generators/rotate_solver_gen.py
+++ b/generators/rotate_solver_gen.py
@@ -0,0 +1,156 @@
 """
 旋转验证码求解器数据生成器
 生成旋转验证码训练数据：随机图案 (色块/渐变/几何图形)，随机旋转 0-359°。
 裁剪为圆形 (黑色背景填充圆外区域)。
 标签 = 旋转角度 (整数)
 文件名格式: {angle}_{index:06d}.png
 """
 import math
 import random
 from PIL import Image, ImageDraw, ImageFilter, ImageFont
 from config import SOLVER_CONFIG
 from generators.base import BaseCaptchaGenerator
 _FONT_PATHS = [
    "/usr/share/fonts/TTF/DejaVuSans-Bold.ttf",
    "/usr/share/fonts/TTF/DejaVuSerif-Bold.ttf",
    "/usr/share/fonts/liberation/LiberationSans-Bold.ttf",
    "/usr/share/fonts/liberation/LiberationSerif-Bold.ttf",
    "/usr/share/fonts/gnu-free/FreeSansBold.otf",
 ]
 class RotateSolverDataGenerator(BaseCaptchaGenerator):
    """旋转验证码求解器数据生成器。"""
    def __init__(self, seed: int | None = None):
        from config import RANDOM_SEED
        super().__init__(seed=seed if seed is not None else RANDOM_SEED)
        self.cfg = SOLVER_CONFIG["rotate"]
        self.height, self.width = self.cfg["input_size"]  # (H, W)
        self._fonts: list[str] = []
        for p in _FONT_PATHS:
            try:
                ImageFont.truetype(p, 20)
                self._fonts.append(p)
            except OSError:
                continue
    def generate(self, text: str | None = None) -> tuple[Image.Image, str]:
        rng = self.rng
        # 随机旋转角度 0-359
        angle = rng.randint(0, 359)
        if text is None:
            text = str(angle)
        size = self.width  # 正方形
        radius = size // 2
        # 1. 生成正向图案 (未旋转)
        content = self._random_pattern(rng, size)
        # 2. 旋转图案
        rotated = content.rotate(-angle, resample=Image.BICUBIC, expand=False)
        # 3. 裁剪为圆形 (黑色背景)
        result = Image.new("RGB", (size, size), (0, 0, 0))
        mask = Image.new("L", (size, size), 0)
        mask_draw = ImageDraw.Draw(mask)
        mask_draw.ellipse([0, 0, size - 1, size - 1], fill=255)
        result.paste(rotated, (0, 0), mask)
        # 4. 轻微模糊
        result = result.filter(ImageFilter.GaussianBlur(radius=0.5))
        return result, text
    def _random_pattern(self, rng: random.Random, size: int) -> Image.Image:
        """生成随机图案 (带明显方向性，便于模型学习旋转)。"""
        img = Image.new("RGB", (size, size))
        draw = ImageDraw.Draw(img)
        # 渐变背景
        base_r = rng.randint(100, 220)
        base_g = rng.randint(100, 220)
        base_b = rng.randint(100, 220)
        for y in range(size):
            ratio = y / max(size - 1, 1)
            r = int(base_r * (1 - ratio) + rng.randint(40, 120) * ratio)
            g = int(base_g * (1 - ratio) + rng.randint(40, 120) * ratio)
            b = int(base_b * (1 - ratio) + rng.randint(40, 120) * ratio)
            draw.line([(0, y), (size, y)], fill=(r, g, b))
        cx, cy = size // 2, size // 2
        # 添加不对称几何图形 (让模型能感知方向)
        pattern_type = rng.choice(["triangle", "arrow", "text", "shapes"])
        if pattern_type == "triangle":
            # 顶部三角形标记
            color = tuple(rng.randint(180, 255) for _ in range(3))
            ts = size // 4
            draw.polygon(
                [(cx, cy - ts), (cx - ts // 2, cy), (cx + ts // 2, cy)],
                fill=color,
            )
            # 底部小圆
            draw.ellipse(
                [cx - 8, cy + ts // 2, cx + 8, cy + ts // 2 + 16],
                fill=tuple(rng.randint(50, 150) for _ in range(3)),
            )
        elif pattern_type == "arrow":
            # 向上的箭头
            color = tuple(rng.randint(180, 255) for _ in range(3))
            arrow_len = size // 3
            draw.line([(cx, cy - arrow_len), (cx, cy + arrow_len // 2)], fill=color, width=4)
            draw.polygon(
                [(cx, cy - arrow_len - 5), (cx - 10, cy - arrow_len + 10), (cx + 10, cy - arrow_len + 10)],
                fill=color,
            )
        elif pattern_type == "text" and self._fonts:
            # 文字 (有天然方向性)
            font_path = rng.choice(self._fonts)
            font_size = size // 3
            try:
                font = ImageFont.truetype(font_path, font_size)
                ch = rng.choice("ABCDEFGHJKLMNPRSTUVWXYZ23456789")
                bbox = font.getbbox(ch)
                tw, th = bbox[2] - bbox[0], bbox[3] - bbox[1]
                draw.text(
                    (cx - tw // 2 - bbox[0], cy - th // 2 - bbox[1]),
                    ch,
                    fill=tuple(rng.randint(0, 80) for _ in range(3)),
                    font=font,
                )
            except OSError:
                pass
        else:
            # 混合不对称形状
            # 上方矩形
            w, h = rng.randint(15, 30), rng.randint(10, 20)
            color = tuple(rng.randint(150, 255) for _ in range(3))
            draw.rectangle([cx - w, cy - size // 3, cx + w, cy - size // 3 + h], fill=color)
            # 右下小圆
            r = rng.randint(5, 12)
            color2 = tuple(rng.randint(50, 150) for _ in range(3))
            draw.ellipse([cx + size // 5, cy + size // 5, cx + size // 5 + r * 2, cy + size // 5 + r * 2], fill=color2)
        # 添加纹理噪声
        for _ in range(rng.randint(20, 60)):
            nx, ny = rng.randint(0, size - 1), rng.randint(0, size - 1)
            nc = tuple(rng.randint(80, 220) for _ in range(3))
            draw.point((nx, ny), fill=nc)
        return img
--- a/generators/slide_gen.py
+++ b/generators/slide_gen.py
@@ -0,0 +1,112 @@
 """
 滑块验证码数据生成器
 生成滑块验证码训练数据：随机纹理/色块背景 + 方形缺口 + 阴影效果。
 标签 = 缺口中心 x 坐标 (整数)
 文件名格式: {gap_x}_{index:06d}.png
 """
 import random
 from PIL import Image, ImageDraw, ImageFilter
 from config import SOLVER_CONFIG
 from generators.base import BaseCaptchaGenerator
 class SlideDataGenerator(BaseCaptchaGenerator):
    """滑块验证码数据生成器。"""
    def __init__(self, seed: int | None = None):
        from config import RANDOM_SEED
        super().__init__(seed=seed if seed is not None else RANDOM_SEED)
        self.cfg = SOLVER_CONFIG["slide"]
        self.height, self.width = self.cfg["cnn_input_size"]  # (H, W)
        self.gap_size = 40  # 缺口大小
    def generate(self, text: str | None = None) -> tuple[Image.Image, str]:
        rng = self.rng
        gs = self.gap_size
        # 缺口 x 范围: 留出边距
        margin = gs + 10
        gap_x = rng.randint(margin, self.width - margin)
        gap_y = rng.randint(10, self.height - gs - 10)
        if text is None:
            text = str(gap_x)
        # 1. 生成纹理背景
        img = self._textured_background(rng)
        # 2. 绘制缺口 (半透明灰色区域 + 阴影)
        overlay = Image.new("RGBA", img.size, (0, 0, 0, 0))
        overlay_draw = ImageDraw.Draw(overlay)
        # 阴影 (稍大一圈)
        overlay_draw.rectangle(
            [gap_x + 2, gap_y + 2, gap_x + gs + 2, gap_y + gs + 2],
            fill=(0, 0, 0, 60),
        )
        # 缺口本体
        overlay_draw.rectangle(
            [gap_x, gap_y, gap_x + gs, gap_y + gs],
            fill=(80, 80, 80, 160),
            outline=(60, 60, 60, 200),
            width=2,
        )
        img = img.convert("RGBA")
        img = Image.alpha_composite(img, overlay)
        img = img.convert("RGB")
        # 3. 轻微模糊
        img = img.filter(ImageFilter.GaussianBlur(radius=0.3))
        return img, text
    def _textured_background(self, rng: random.Random) -> Image.Image:
        """生成带纹理的彩色背景。"""
        img = Image.new("RGB", (self.width, self.height))
        draw = ImageDraw.Draw(img)
        # 渐变底色
        base_r = rng.randint(80, 200)
        base_g = rng.randint(80, 200)
        base_b = rng.randint(80, 200)
        for y in range(self.height):
            ratio = y / max(self.height - 1, 1)
            r = int(base_r + 40 * ratio)
            g = int(base_g - 20 * ratio)
            b = int(base_b + 20 * ratio)
            r, g, b = max(0, min(255, r)), max(0, min(255, g)), max(0, min(255, b))
            draw.line([(0, y), (self.width, y)], fill=(r, g, b))
        # 纹理噪声
        for _ in range(self.width * self.height // 6):
            x = rng.randint(0, self.width - 1)
            y = rng.randint(0, self.height - 1)
            pixel = img.getpixel((x, y))
            noise = tuple(
                max(0, min(255, c + rng.randint(-30, 30)))
                for c in pixel
            )
            draw.point((x, y), fill=noise)
        # 随机色块 (模拟图案)
        for _ in range(rng.randint(4, 8)):
            x1, y1 = rng.randint(0, self.width - 30), rng.randint(0, self.height - 20)
            x2, y2 = x1 + rng.randint(15, 50), y1 + rng.randint(10, 30)
            color = tuple(rng.randint(50, 230) for _ in range(3))
            draw.rectangle([x1, y1, x2, y2], fill=color)
        # 随机圆形
        for _ in range(rng.randint(2, 5)):
            cx = rng.randint(10, self.width - 10)
            cy = rng.randint(10, self.height - 10)
            cr = rng.randint(5, 20)
            color = tuple(rng.randint(50, 230) for _ in range(3))
            draw.ellipse([cx - cr, cy - cr, cx + cr, cy + cr], fill=color)
        return img
--- a/inference/export_onnx.py
+++ b/inference/export_onnx.py
@@ -18,11 +18,14 @@ from config import (
    THREED_CHARS,
    NUM_CAPTCHA_TYPES,
    REGRESSION_RANGE,
    SOLVER_CONFIG,
 )
 from models.classifier import CaptchaClassifier
 from models.lite_crnn import LiteCRNN
 from models.threed_cnn import ThreeDCNN
 from models.regression_cnn import RegressionCNN
 from models.gap_detector import GapDetectorCNN
 from models.rotation_regressor import RotationRegressor
 def export_model(
@@ -52,7 +55,7 @@ def export_model(
    dummy = torch.randn(1, *input_shape)
    # 分类器和识别器的 dynamic_axes 不同
-    if model_name == "classifier" or model_name in ("threed_rotate", "threed_slider"):
+    if model_name == "classifier" or model_name in ("threed_rotate", "threed_slider", "gap_detector", "rotation_regressor"):
        dynamic_axes = {"input": {0: "batch"}, "output": {0: "batch"}}
    else:
        # CTC 模型: output shape = (T, B, C)
@@ -110,6 +113,14 @@ def _load_and_export(model_name: str):
        h, w = IMAGE_SIZE["3d_slider"]
        model = RegressionCNN(img_h=h, img_w=w)
        input_shape = (1, h, w)
    elif model_name == "gap_detector":
        h, w = SOLVER_CONFIG["slide"]["cnn_input_size"]
        model = GapDetectorCNN(img_h=h, img_w=w)
        input_shape = (1, h, w)
    elif model_name == "rotation_regressor":
        h, w = SOLVER_CONFIG["rotate"]["input_size"]
        model = RotationRegressor(img_h=h, img_w=w)
        input_shape = (3, h, w)
    else:
        print(f"[错误] 未知模型: {model_name}")
        return
@@ -119,11 +130,15 @@ def _load_and_export(model_name: str):
 def export_all():
-    """依次导出 classifier, normal, math, threed_text, threed_rotate, threed_slider 六个模型。"""
+    """依次导出全部模型 (含 solver 模型)。"""
    print("=" * 50)
    print("导出全部 ONNX 模型")
    print("=" * 50)
-    for name in ["classifier", "normal", "math", "threed_text", "threed_rotate", "threed_slider"]:
+    for name in [
        "classifier", "normal", "math", "threed_text",
        "threed_rotate", "threed_slider",
        "gap_detector", "rotation_regressor",
    ]:
        _load_and_export(name)
    print("\n全部导出完成。")
--- a/models/init.py
+++ b/models/init.py
@@ -1,21 +1,27 @@
 """
 模型定义包
-提供四种模型：
+提供六种模型：
 - CaptchaClassifier: 调度分类器 (轻量 CNN, < 500KB)
 - LiteCRNN: 轻量 CRNN (普通字符 + 算式, < 2MB)
 - ThreeDCNN: 3D 文字验证码专用模型 (ResNet-lite + BiLSTM, < 5MB)
 - RegressionCNN: 回归 CNN (3D 旋转 + 滑块, ~1MB)
 - GapDetectorCNN: 滑块缺口检测 CNN (~1MB)
 - RotationRegressor: 旋转角度回归 sin/cos 编码 (~2MB)
 """
 from models.classifier import CaptchaClassifier
 from models.lite_crnn import LiteCRNN
 from models.threed_cnn import ThreeDCNN
 from models.regression_cnn import RegressionCNN
 from models.gap_detector import GapDetectorCNN
 from models.rotation_regressor import RotationRegressor
 __all__ = [
    "CaptchaClassifier",
    "LiteCRNN",
    "ThreeDCNN",
    "RegressionCNN",
    "GapDetectorCNN",
    "RotationRegressor",
 ]
--- a/models/gap_detector.py
+++ b/models/gap_detector.py
@@ -0,0 +1,82 @@
 """
 滑块缺口检测 CNN (GapDetectorCNN)
 用于检测滑块验证码中缺口的 x 坐标位置。
 输出 sigmoid 归一化到 [0,1]，推理时按图片宽度缩放回像素坐标。
 架构:
    Conv(1→32) + BN + ReLU + Pool
    Conv(32→64) + BN + ReLU + Pool
    Conv(64→128) + BN + ReLU + Pool
    Conv(128→128) + BN + ReLU + Pool
    AdaptiveAvgPool2d(1) → FC(128→64) → ReLU → Dropout(0.2) → FC(64→1) → Sigmoid
 约 250K 参数，~1MB。
 """
 import torch
 import torch.nn as nn
 class GapDetectorCNN(nn.Module):
    """
    滑块缺口检测 CNN，输出缺口 x 坐标的归一化百分比 [0,1]。
    与 RegressionCNN 架构相同，但语义上专用于滑块缺口检测，
    默认输入尺寸 1x128x256 (灰度)。
    """
    def __init__(self, img_h: int = 128, img_w: int = 256):
        super().__init__()
        self.img_h = img_h
        self.img_w = img_w
        self.features = nn.Sequential(
            # block 1: 1 → 32, H/2, W/2
            nn.Conv2d(1, 32, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(32),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
            # block 2: 32 → 64, H/4, W/4
            nn.Conv2d(32, 64, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
            # block 3: 64 → 128, H/8, W/8
            nn.Conv2d(64, 128, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(128),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
            # block 4: 128 → 128, H/16, W/16
            nn.Conv2d(128, 128, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(128),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
        )
        self.pool = nn.AdaptiveAvgPool2d(1)
        self.regressor = nn.Sequential(
            nn.Linear(128, 64),
            nn.ReLU(inplace=True),
            nn.Dropout(0.2),
            nn.Linear(64, 1),
            nn.Sigmoid(),
        )
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        Args:
            x: (batch, 1, H, W) 灰度图
        Returns:
            output: (batch, 1) sigmoid 输出 [0, 1]，表示缺口 x 坐标百分比
        """
        feat = self.features(x)
        feat = self.pool(feat)          # (B, 128, 1, 1)
        feat = feat.flatten(1)          # (B, 128)
        out = self.regressor(feat)      # (B, 1)
        return out
--- a/models/rotation_regressor.py
+++ b/models/rotation_regressor.py
@@ -0,0 +1,82 @@
 """
 旋转角度回归模型 (RotationRegressor)
 用于预测旋转验证码的正确旋转角度。
 使用 sin/cos 编码避免 0°/360° 边界问题。
 RGB 输入，输出 (sin θ, cos θ) ∈ [-1,1]。
 架构:
    Conv(3→32) + BN + ReLU + Pool
    Conv(32→64) + BN + ReLU + Pool
    Conv(64→128) + BN + ReLU + Pool
    Conv(128→256) + BN + ReLU + Pool
    AdaptiveAvgPool2d(1) → FC(256→128) → ReLU → FC(128→2) → Tanh
 约 400K 参数，~2MB。
 """
 import torch
 import torch.nn as nn
 class RotationRegressor(nn.Module):
    """
    旋转角度回归模型。
    RGB 输入 3x128x128，输出 (sin θ, cos θ)。
    推理时用 atan2(sin, cos) 转换为角度。
    """
    def __init__(self, img_h: int = 128, img_w: int = 128):
        super().__init__()
        self.img_h = img_h
        self.img_w = img_w
        self.features = nn.Sequential(
            # block 1: 3 → 32, H/2, W/2
            nn.Conv2d(3, 32, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(32),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
            # block 2: 32 → 64, H/4, W/4
            nn.Conv2d(32, 64, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
            # block 3: 64 → 128, H/8, W/8
            nn.Conv2d(64, 128, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(128),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
            # block 4: 128 → 256, H/16, W/16
            nn.Conv2d(128, 256, kernel_size=3, padding=1, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2, 2),
        )
        self.pool = nn.AdaptiveAvgPool2d(1)
        self.regressor = nn.Sequential(
            nn.Linear(256, 128),
            nn.ReLU(inplace=True),
            nn.Linear(128, 2),
            nn.Tanh(),
        )
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        Args:
            x: (batch, 3, H, W) RGB 图
        Returns:
            output: (batch, 2) → (sin θ, cos θ) ∈ [-1, 1]
        """
        feat = self.features(x)
        feat = self.pool(feat)          # (B, 256, 1, 1)
        feat = feat.flatten(1)          # (B, 256)
        out = self.regressor(feat)      # (B, 2)
        return out
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -20,6 +20,9 @@ server = [
    "uvicorn>=0.23.0",
    "python-multipart>=0.0.6",
 ]
 cv = [
    "opencv-python>=4.8.0",
 ]
 [project.scripts]
 captcha = "cli:main"
--- a/solvers/init.py
+++ b/solvers/init.py
@@ -0,0 +1,17 @@
 """
 验证码求解器包
 提供两种交互式验证码求解器：
 - SlideSolver: 滑块验证码求解 (OpenCV 优先 + CNN 兜底)
 - RotateSolver: 旋转验证码求解 (ONNX sin/cos 回归)
 """
 from solvers.base import BaseSolver
 from solvers.slide_solver import SlideSolver
 from solvers.rotate_solver import RotateSolver
 __all__ = [
    "BaseSolver",
    "SlideSolver",
    "RotateSolver",
 ]
--- a/solvers/base.py
+++ b/solvers/base.py
@@ -0,0 +1,21 @@
 """
 求解器基类
 """
 from PIL import Image
 class BaseSolver:
    """验证码求解器基类。"""
    def solve(self, image: Image.Image, **kwargs) -> dict:
        """
        求解验证码。
        Args:
            image: 输入图片
        Returns:
            包含求解结果的字典
        """
        raise NotImplementedError
--- a/solvers/rotate_solver.py
+++ b/solvers/rotate_solver.py
@@ -0,0 +1,80 @@
 """
 旋转验证码求解器
 ONNX 推理 → (sin, cos) → atan2 → 角度
 """
 import math
 from pathlib import Path
 import numpy as np
 from PIL import Image
 from config import ONNX_DIR, SOLVER_CONFIG
 from solvers.base import BaseSolver
 class RotateSolver(BaseSolver):
    """旋转验证码求解器。"""
    def __init__(self, onnx_path: str | Path | None = None):
        self.cfg = SOLVER_CONFIG["rotate"]
        self._onnx_session = None
        self._onnx_path = Path(onnx_path) if onnx_path else ONNX_DIR / "rotation_regressor.onnx"
    def _load_onnx(self):
        """延迟加载 ONNX 模型。"""
        if self._onnx_session is not None:
            return
        if not self._onnx_path.exists():
            raise FileNotFoundError(f"ONNX 模型不存在: {self._onnx_path}")
        import onnxruntime as ort
        self._onnx_session = ort.InferenceSession(
            str(self._onnx_path), providers=["CPUExecutionProvider"]
        )
    def solve(self, image: Image.Image | str | Path, **kwargs) -> dict:
        """
        求解旋转验证码。
        Args:
            image: 输入图片 (RGB)
        Returns:
            {"angle": float, "confidence": float}
        """
        if isinstance(image, (str, Path)):
            image = Image.open(str(image)).convert("RGB")
        else:
            image = image.convert("RGB")
        self._load_onnx()
        h, w = self.cfg["input_size"]
        # 预处理: RGB resize + normalize
        img = image.resize((w, h))
        arr = np.array(img, dtype=np.float32) / 255.0
        # Normalize per channel: (x - 0.5) / 0.5
        arr = (arr - 0.5) / 0.5
        # HWC → CHW → NCHW
        arr = arr.transpose(2, 0, 1)[np.newaxis, :, :, :]
        outputs = self._onnx_session.run(None, {"input": arr})
        sin_val = float(outputs[0][0][0])
        cos_val = float(outputs[0][0][1])
        # atan2 → 角度
        angle_rad = math.atan2(sin_val, cos_val)
        angle_deg = math.degrees(angle_rad)
        if angle_deg < 0:
            angle_deg += 360.0
        # 置信度: sin^2 + cos^2 接近 1 表示预测稳定
        magnitude = math.sqrt(sin_val ** 2 + cos_val ** 2)
        confidence = min(magnitude, 1.0)
        return {
            "angle": round(angle_deg, 1),
            "confidence": round(confidence, 3),
        }
--- a/solvers/slide_solver.py
+++ b/solvers/slide_solver.py
@@ -0,0 +1,179 @@
 """
 滑块验证码求解器
 三种求解方法 (按优先级):
 1. 模板匹配: 背景图 + 模板图 → Canny → matchTemplate
 2. 边缘检测: 单图 Canny → findContours → 筛选方形轮廓
 3. CNN 兜底: ONNX 推理 → sigmoid → x 百分比 → 像素
 OpenCV 延迟导入，未安装时退化到 CNN only。
 """
 from pathlib import Path
 import numpy as np
 from PIL import Image
 from config import ONNX_DIR, SOLVER_CONFIG
 from solvers.base import BaseSolver
 class SlideSolver(BaseSolver):
    """滑块验证码求解器。"""
    def __init__(self, onnx_path: str | Path | None = None):
        self.cfg = SOLVER_CONFIG["slide"]
        self._onnx_session = None
        self._onnx_path = Path(onnx_path) if onnx_path else ONNX_DIR / "gap_detector.onnx"
        # 检测 OpenCV 可用性
        self._cv2_available = False
        try:
            import cv2
            self._cv2_available = True
        except ImportError:
            pass
    def _load_onnx(self):
        """延迟加载 ONNX 模型。"""
        if self._onnx_session is not None:
            return
        if not self._onnx_path.exists():
            raise FileNotFoundError(f"ONNX 模型不存在: {self._onnx_path}")
        import onnxruntime as ort
        self._onnx_session = ort.InferenceSession(
            str(self._onnx_path), providers=["CPUExecutionProvider"]
        )
    def solve(
        self,
        bg_image: Image.Image | str | Path,
        template_image: Image.Image | str | Path | None = None,
        **kwargs,
    ) -> dict:
        """
        求解滑块验证码。
        Args:
            bg_image:       背景图 (必需)
            template_image: 模板/拼图块图 (可选，有则优先模板匹配)
        Returns:
            {"gap_x": int, "gap_x_percent": float, "confidence": float, "method": str}
        """
        bg = self._load_image(bg_image)
        # 方法 1: 模板匹配
        if template_image is not None and self._cv2_available:
            tpl = self._load_image(template_image)
            result = self._template_match(bg, tpl)
            if result is not None:
                return result
        # 方法 2: 边缘检测
        if self._cv2_available:
            result = self._edge_detect(bg)
            if result is not None:
                return result
        # 方法 3: CNN 兜底
        return self._cnn_predict(bg)
    def _load_image(self, img: Image.Image | str | Path) -> Image.Image:
        if isinstance(img, (str, Path)):
            return Image.open(str(img)).convert("RGB")
        return img.convert("RGB")
    def _template_match(self, bg: Image.Image, tpl: Image.Image) -> dict | None:
        """模板匹配法。"""
        import cv2
        bg_gray = np.array(bg.convert("L"))
        tpl_gray = np.array(tpl.convert("L"))
        # Canny 边缘
        bg_edges = cv2.Canny(bg_gray, self.cfg["canny_low"], self.cfg["canny_high"])
        tpl_edges = cv2.Canny(tpl_gray, self.cfg["canny_low"], self.cfg["canny_high"])
        if tpl_edges.sum() == 0:
            return None
        result = cv2.matchTemplate(bg_edges, tpl_edges, cv2.TM_CCOEFF_NORMED)
        _, max_val, _, max_loc = cv2.minMaxLoc(result)
        if max_val < 0.3:
            return None
        gap_x = max_loc[0] + tpl_gray.shape[1] // 2
        return {
            "gap_x": int(gap_x),
            "gap_x_percent": gap_x / bg_gray.shape[1],
            "confidence": float(max_val),
            "method": "template_match",
        }
    def _edge_detect(self, bg: Image.Image) -> dict | None:
        """边缘检测法：找方形轮廓。"""
        import cv2
        bg_gray = np.array(bg.convert("L"))
        h, w = bg_gray.shape
        edges = cv2.Canny(bg_gray, self.cfg["canny_low"], self.cfg["canny_high"])
        contours, _ = cv2.findContours(edges, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
        best = None
        best_score = 0
        for cnt in contours:
            area = cv2.contourArea(cnt)
            # 面积筛选: 缺口大小在合理范围
            if area < (h * w * 0.005) or area > (h * w * 0.15):
                continue
            x, y, cw, ch = cv2.boundingRect(cnt)
            aspect = min(cw, ch) / max(cw, ch) if max(cw, ch) > 0 else 0
            # 近似方形
            if aspect < 0.5:
                continue
            # 评分: 面积适中 + 近似方形
            score = aspect * (area / (h * w * 0.05))
            if score > best_score:
                best_score = score
                best = (x + cw // 2, cw, ch, score)
        if best is None:
            return None
        gap_x, _, _, score = best
        return {
            "gap_x": int(gap_x),
            "gap_x_percent": gap_x / w,
            "confidence": min(float(score), 1.0),
            "method": "edge_detect",
        }
    def _cnn_predict(self, bg: Image.Image) -> dict:
        """CNN 推理兜底。"""
        self._load_onnx()
        h, w = self.cfg["cnn_input_size"]
        orig_w = bg.width
        # 预处理: 灰度 + resize + normalize
        img = bg.convert("L").resize((w, h))
        arr = np.array(img, dtype=np.float32) / 255.0
        arr = (arr - 0.5) / 0.5
        arr = arr[np.newaxis, np.newaxis, :, :]  # (1, 1, H, W)
        outputs = self._onnx_session.run(None, {"input": arr})
        percent = float(outputs[0][0][0])
        gap_x = int(percent * orig_w)
        return {
            "gap_x": gap_x,
            "gap_x_percent": percent,
            "confidence": 0.5,  # CNN 无置信度
            "method": "cnn",
        }
--- a/training/dataset.py
+++ b/training/dataset.py
@@ -224,3 +224,55 @@ class RegressionDataset(Dataset):
            img = self.transform(img)
        return img, torch.tensor([label], dtype=torch.float32)
 # ============================================================
 # 旋转求解器用数据集 (sin/cos 编码)
 # ============================================================
 class RotateSolverDataset(Dataset):
    """
    旋转求解器数据集。
    从目录中读取 {angle}_{xxx}.png 文件，
    将角度转换为 (sin θ, cos θ) 目标。
    RGB 输入，不转灰度。
    """
    def __init__(
        self,
        dirs: list[str | Path],
        transform: transforms.Compose | None = None,
    ):
        """
        Args:
            dirs:      数据目录列表
            transform: 图片预处理/增强 (RGB)
        """
        import math
        self.transform = transform
        self.samples: list[tuple[str, float, float]] = []  # (路径, sin, cos)
        for d in dirs:
            d = Path(d)
            if not d.exists():
                continue
            for f in sorted(d.glob("*.png")):
                raw_label = f.stem.rsplit("_", 1)[0]
                try:
                    angle = float(raw_label)
                except ValueError:
                    continue
                rad = math.radians(angle)
                self.samples.append((str(f), math.sin(rad), math.cos(rad)))
    def __len__(self) -> int:
        return len(self.samples)
    def __getitem__(self, idx: int):
        import torch
        path, sin_val, cos_val = self.samples[idx]
        img = Image.open(path).convert("RGB")
        if self.transform:
            img = self.transform(img)
        return img, torch.tensor([sin_val, cos_val], dtype=torch.float32)
--- a/training/train_rotate_solver.py
+++ b/training/train_rotate_solver.py
@@ -0,0 +1,245 @@
 """
 训练旋转验证码角度回归模型 (RotationRegressor)
 自定义训练循环 (sin/cos 编码)，不复用 train_regression_utils。
 用法: python -m training.train_rotate_solver
 """
 import math
 import random
 from pathlib import Path
 import numpy as np
 import torch
 import torch.nn as nn
 from torch.utils.data import DataLoader, random_split
 from torchvision import transforms
 from tqdm import tqdm
 from config import (
    SOLVER_CONFIG,
    SOLVER_TRAIN_CONFIG,
    ROTATE_SOLVER_DATA_DIR,
    CHECKPOINTS_DIR,
    ONNX_DIR,
    ONNX_CONFIG,
    AUGMENT_CONFIG,
    RANDOM_SEED,
    get_device,
 )
 from generators.rotate_solver_gen import RotateSolverDataGenerator
 from models.rotation_regressor import RotationRegressor
 from training.dataset import RotateSolverDataset
 def _set_seed(seed: int = RANDOM_SEED):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(seed)
 def _circular_mae_deg(pred_angles: np.ndarray, gt_angles: np.ndarray) -> float:
    """循环 MAE (度数)。"""
    diff = np.abs(pred_angles - gt_angles)
    diff = np.minimum(diff, 360.0 - diff)
    return float(np.mean(diff))
 def _build_train_transform(img_h: int, img_w: int) -> transforms.Compose:
    """RGB 训练增强 (不转灰度)。"""
    aug = AUGMENT_CONFIG
    return transforms.Compose([
        transforms.Resize((img_h, img_w)),
        transforms.ColorJitter(brightness=aug["brightness"], contrast=aug["contrast"]),
        transforms.GaussianBlur(aug["blur_kernel"], sigma=aug["blur_sigma"]),
        transforms.ToTensor(),
        transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
    ])
 def _build_val_transform(img_h: int, img_w: int) -> transforms.Compose:
    """RGB 验证 transform。"""
    return transforms.Compose([
        transforms.Resize((img_h, img_w)),
        transforms.ToTensor(),
        transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
    ])
 def _export_onnx(model: nn.Module, img_h: int, img_w: int):
    """导出 ONNX (RGB 3通道输入)。"""
    model.eval()
    onnx_path = ONNX_DIR / "rotation_regressor.onnx"
    dummy = torch.randn(1, 3, img_h, img_w)
    torch.onnx.export(
        model.cpu(),
        dummy,
        str(onnx_path),
        opset_version=ONNX_CONFIG["opset_version"],
        input_names=["input"],
        output_names=["output"],
        dynamic_axes={"input": {0: "batch"}, "output": {0: "batch"}}
        if ONNX_CONFIG["dynamic_batch"]
        else None,
    )
    print(f"[ONNX] 导出完成: {onnx_path}  ({onnx_path.stat().st_size / 1024:.1f} KB)")
 def main():
    cfg = SOLVER_TRAIN_CONFIG["rotate"]
    solver_cfg = SOLVER_CONFIG["rotate"]
    img_h, img_w = solver_cfg["input_size"]
    tolerance = 5.0  # ±5°
    _set_seed()
    device = get_device()
    print("=" * 60)
    print("训练旋转验证码角度回归模型 (RotationRegressor)")
    print(f"  输入尺寸: {img_h}×{img_w} RGB")
    print(f"  编码: sin/cos")
    print(f"  容差: ±{tolerance}°")
    print("=" * 60)
    # ---- 1. 检查 / 生成合成数据 ----
    syn_path = ROTATE_SOLVER_DATA_DIR
    syn_path.mkdir(parents=True, exist_ok=True)
    existing = list(syn_path.glob("*.png"))
    if len(existing) < cfg["synthetic_samples"]:
        print(f"[数据] 合成数据不足 ({len(existing)}/{cfg['synthetic_samples']})，开始生成...")
        gen = RotateSolverDataGenerator()
        gen.generate_dataset(cfg["synthetic_samples"], str(syn_path))
    else:
        print(f"[数据] 合成数据已就绪: {len(existing)} 张")
    # ---- 2. 构建数据集 ----
    data_dirs = [str(syn_path)]
    real_dir = syn_path / "real"
    real_dir.mkdir(parents=True, exist_ok=True)
    if list(real_dir.glob("*.png")):
        data_dirs.append(str(real_dir))
        print(f"[数据] 混合真实数据: {len(list(real_dir.glob('*.png')))} 张")
    train_transform = _build_train_transform(img_h, img_w)
    val_transform = _build_val_transform(img_h, img_w)
    full_dataset = RotateSolverDataset(dirs=data_dirs, transform=train_transform)
    total = len(full_dataset)
    val_size = int(total * cfg["val_split"])
    train_size = total - val_size
    train_ds, val_ds = random_split(full_dataset, [train_size, val_size])
    val_ds_clean = RotateSolverDataset(dirs=data_dirs, transform=val_transform)
    val_ds_clean.samples = [full_dataset.samples[i] for i in val_ds.indices]
    train_loader = DataLoader(
        train_ds, batch_size=cfg["batch_size"], shuffle=True,
        num_workers=0, pin_memory=True,
    )
    val_loader = DataLoader(
        val_ds_clean, batch_size=cfg["batch_size"], shuffle=False,
        num_workers=0, pin_memory=True,
    )
    print(f"[数据] 训练: {train_size}  验证: {val_size}")
    # ---- 3. 模型 / 优化器 / 调度器 ----
    model = RotationRegressor(img_h=img_h, img_w=img_w).to(device)
    optimizer = torch.optim.Adam(model.parameters(), lr=cfg["lr"])
    scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=cfg["epochs"])
    loss_fn = nn.MSELoss()
    best_mae = float("inf")
    best_tol_acc = 0.0
    ckpt_path = CHECKPOINTS_DIR / "rotation_regressor.pth"
    # ---- 4. 训练循环 ----
    for epoch in range(1, cfg["epochs"] + 1):
        model.train()
        total_loss = 0.0
        num_batches = 0
        pbar = tqdm(train_loader, desc=f"Epoch {epoch}/{cfg['epochs']}", leave=False)
        for images, targets in pbar:
            images = images.to(device)
            targets = targets.to(device)  # (B, 2) → (sin, cos)
            preds = model(images)  # (B, 2)
            loss = loss_fn(preds, targets)
            optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=5.0)
            optimizer.step()
            total_loss += loss.item()
            num_batches += 1
            pbar.set_postfix(loss=f"{loss.item():.4f}")
        scheduler.step()
        avg_loss = total_loss / max(num_batches, 1)
        # ---- 5. 验证 ----
        model.eval()
        all_pred_angles = []
        all_gt_angles = []
        with torch.no_grad():
            for images, targets in val_loader:
                images = images.to(device)
                preds = model(images).cpu().numpy()  # (B, 2)
                targets_np = targets.numpy()  # (B, 2)
                # sin/cos → angle
                for i in range(len(preds)):
                    pred_angle = math.degrees(math.atan2(preds[i][0], preds[i][1]))
                    if pred_angle < 0:
                        pred_angle += 360.0
                    gt_angle = math.degrees(math.atan2(targets_np[i][0], targets_np[i][1]))
                    if gt_angle < 0:
                        gt_angle += 360.0
                    all_pred_angles.append(pred_angle)
                    all_gt_angles.append(gt_angle)
        pred_arr = np.array(all_pred_angles)
        gt_arr = np.array(all_gt_angles)
        mae = _circular_mae_deg(pred_arr, gt_arr)
        diff = np.abs(pred_arr - gt_arr)
        diff = np.minimum(diff, 360.0 - diff)
        tol_acc = float(np.mean(diff <= tolerance))
        lr = scheduler.get_last_lr()[0]
        print(
            f"Epoch {epoch:3d}/{cfg['epochs']}  "
            f"loss={avg_loss:.4f}  "
            f"MAE={mae:.2f}°  "
            f"tol_acc(±{tolerance:.0f}°)={tol_acc:.4f}  "
            f"lr={lr:.6f}"
        )
        # ---- 6. 保存最佳模型 ----
        if tol_acc >= best_tol_acc:
            best_tol_acc = tol_acc
            best_mae = mae
            torch.save({
                "model_state_dict": model.state_dict(),
                "best_mae": best_mae,
                "best_tol_acc": best_tol_acc,
                "epoch": epoch,
            }, ckpt_path)
            print(f"  → 保存最佳模型 tol_acc={best_tol_acc:.4f} MAE={best_mae:.2f}°  {ckpt_path}")
    # ---- 7. 导出 ONNX ----
    print(f"\n[训练完成] 最佳容差准确率: {best_tol_acc:.4f}  最佳 MAE: {best_mae:.2f}°")
    ckpt = torch.load(ckpt_path, map_location="cpu", weights_only=True)
    model.load_state_dict(ckpt["model_state_dict"])
    _export_onnx(model, img_h, img_w)
    return best_tol_acc
 if __name__ == "__main__":
    main()
--- a/training/train_slide.py
+++ b/training/train_slide.py
@@ -0,0 +1,65 @@
 """
 训练滑块缺口检测 CNN (GapDetectorCNN)
 复用 train_regression_utils 的通用回归训练流程。
 用法: python -m training.train_slide
 """
 from config import (
    SOLVER_CONFIG,
    SOLVER_TRAIN_CONFIG,
    SOLVER_REGRESSION_RANGE,
    SLIDE_DATA_DIR,
    CHECKPOINTS_DIR,
    ONNX_DIR,
    ONNX_CONFIG,
    RANDOM_SEED,
    get_device,
 )
 from generators.slide_gen import SlideDataGenerator
 from models.gap_detector import GapDetectorCNN
 # 注入 solver 配置到 TRAIN_CONFIG / IMAGE_SIZE / REGRESSION_RANGE
 # 以便复用 train_regression_utils
 import config as _cfg
 def main():
    solver_cfg = SOLVER_CONFIG["slide"]
    train_cfg = SOLVER_TRAIN_CONFIG["slide_cnn"]
    img_h, img_w = solver_cfg["cnn_input_size"]
    model = GapDetectorCNN(img_h=img_h, img_w=img_w)
    print("=" * 60)
    print("训练滑块缺口检测 CNN (GapDetectorCNN)")
    print(f"  输入尺寸: {img_h}×{img_w}")
    print(f"  任务: 预测缺口 x 坐标百分比")
    print("=" * 60)
    # 直接使用 train_regression_utils 中的逻辑
    # 但需要临时注入配置
    _cfg.TRAIN_CONFIG["slide_cnn"] = train_cfg
    _cfg.IMAGE_SIZE["slide_cnn"] = (img_h, img_w)
    _cfg.REGRESSION_RANGE["slide_cnn"] = SOLVER_REGRESSION_RANGE["slide"]
    from training.train_regression_utils import train_regression_model
    # 确保数据目录存在
    SLIDE_DATA_DIR.mkdir(parents=True, exist_ok=True)
    real_dir = SLIDE_DATA_DIR / "real"
    real_dir.mkdir(parents=True, exist_ok=True)
    train_regression_model(
        model_name="gap_detector",
        model=model,
        synthetic_dir=str(SLIDE_DATA_DIR),
        real_dir=str(real_dir),
        generator_cls=SlideDataGenerator,
        config_key="slide_cnn",
    )
 if __name__ == "__main__":
    main()
--- a/utils/init.py
+++ b/utils/init.py
@@ -0,0 +1,3 @@
 """
 工具函数包
 """
--- a/utils/slide_utils.py
+++ b/utils/slide_utils.py
@@ -0,0 +1,75 @@
 """
 滑块轨迹生成工具
 生成模拟人类操作的滑块拖拽轨迹。
 """
 import math
 import random
 def generate_slide_track(
    distance: int,
    duration: float = 1.0,
    seed: int | None = None,
 ) -> list[dict]:
    """
    生成滑块拖拽轨迹。
    使用贝塞尔曲线 ease-out 加速减速，末尾带微小过冲回退。
    y 轴 ±1~3px 随机抖动，时间间隔不均匀。
    Args:
        distance: 滑动距离 (像素)
        duration: 总时长 (秒)
        seed:     随机种子
    Returns:
        [{"x": float, "y": float, "t": float}, ...]
    """
    rng = random.Random(seed)
    if distance <= 0:
        return [{"x": 0.0, "y": 0.0, "t": 0.0}]
    track = []
    # 采样点数
    num_points = rng.randint(30, 60)
    total_ms = duration * 1000
    # 生成不均匀时间点
    raw_times = sorted([rng.random() for _ in range(num_points - 2)])
    times = [0.0] + raw_times + [1.0]
    # 过冲距离
    overshoot = rng.uniform(2, 6)
    overshoot_start = 0.85  # 85% 时到达目标 + 过冲
    for t_norm in times:
        t_ms = round(t_norm * total_ms, 1)
        if t_norm <= overshoot_start:
            # ease-out: 快速启动，缓慢减速
            progress = t_norm / overshoot_start
            eased = 1 - (1 - progress) ** 3  # cubic ease-out
            x = eased * (distance + overshoot)
        else:
            # 过冲回退段
            retract_progress = (t_norm - overshoot_start) / (1 - overshoot_start)
            eased_retract = retract_progress ** 2  # ease-in 回退
            x = (distance + overshoot) - overshoot * eased_retract
        # y 轴随机抖动
        y_jitter = rng.uniform(-3, 3) if t_norm > 0.05 else 0.0
        track.append({
            "x": round(x, 1),
            "y": round(y_jitter, 1),
            "t": t_ms,
        })
    # 确保最后一个点精确到达目标
    track[-1]["x"] = float(distance)
    track[-1]["y"] = round(rng.uniform(-0.5, 0.5), 1)
    return track