openclaw 网盘下载
OpenClaw

技能详情(站内镜像,无评论)

首页 > 技能库 > yindeng_ analyse

自动爬取银登网不良贷款转让公告及结果,支持多模型提取关键金融数据并导出结构化分析报告。

数据与表格

作者:huqngqic @aiyouBug

许可证:MIT-0

MIT-0 ·免费使用、修改和重新分发。无需归因。

版本:v1.0.0

统计:⭐ 1 · 183 · 0 current installs · 0 all-time installs

1

安装量(当前) 0

🛡 VirusTotal :良性 · OpenClaw :可疑

Package:aiyoubug/yindenganalyse

安全扫描(ClawHub)

  • VirusTotal :良性
  • OpenClaw :可疑

OpenClaw 评估

技能总体与说明一致(爬取银登并用 OCR/LLM 提取数据),但存在说明与清单不一致(manifest 未声明需要 LLM 密钥)且会把 PDF 文本发送到第三方 LLM,可能导致敏感数据外泄——在安装前请审慎评估并确保使用受信的 LLM 服务或对敏感信息做脱敏。

目的

技能名与描述匹配代码行为:爬取银登公告/结果、下载 PDF、做 OCR 并可调用 LLM 做结构化提取。依赖(OCR、PDF 处理、requests 等)与目标一致。但 registry/skill.json 声明“无需环境变量”,而运行时(SKILL.md 与代码)明确要求 LLM_API_KEY/LLM_PROVIDER 等环境变量——这是元数据与实际需求的不一致,值得注意。

说明范围

SKILL.md 与代码指示:爬取页面、下载并保存 PDF、对 PDF 做文本提取/OCR,然后将提取的文本(代码会把最多前 15000 字符放入提示)通过 HTTP POST 发送到第三方 LLM endpoint(deepseek/siliconflow/qwen 等可配置)。这会把公告中的内容(可能含个人信息或敏感财务数据)发送到外部服务,存在数据泄露风险。代码并未主动读取或 exfiltrate 其他本地 secrets, 也没有隐藏的外部端点,但默认会向用户配置的 LLM API 发送数据。

安装机制

无自动下载安装脚本;为 instruction-only(但包含源码)。requirements.txt 列出常见库(requests、pdf2image、pytesseract 等),并在文档中提醒安装 Tesseract/Poppler。没有从不明 URL 下载可执行文件,install 机制总体可审计。

证书

运行时实际需要 LLM_API_KEY、可选 LLM_PROVIDER/LLM_API_BASE/LLM_MODEL(SKILL.md 明确),这些与启用 LLM 分析直接相关,是比例内的权限请求。但 registry metadata did not declare required env vars — mismatch. 要求的凭据是一个第三方 API key(敏感),安装前应确认该 key 仅授予最小权限且服务受信任。

持久

skill.json 中没有 always:true,且代码不修改其他技能或系统范围配置。技能不会强制常驻或提升平台权限。

安装(复制给龙虾 AI)

将下方整段复制到龙虾中文库对话中,由龙虾按 SKILL.md 完成安装。

请把本段交给龙虾中文库(龙虾 AI)执行:为本机安装 OpenClaw 技能「yindeng_ analyse」。简介:自动爬取银登网不良贷款转让公告及结果,支持多模型提取关键金融数据并导出结构化分析报告。。
请 fetch 以下地址读取 SKILL.md 并按文档完成安装:https://raw.githubusercontent.com/openclaw/skills/refs/heads/main/skills/aiyoubug/yindenganalyse/SKILL.md
(来源:yingzhi8.cn 技能库)

SKILL.md

打开原始 SKILL.md(GitHub raw)

# CoPAW 银登公告与结果爬取 Skill

这是一个用于 CoPAW (Copilot Automation Workflow) 的标准 Skill,支持自动爬取银登网不良贷款转让公告及转让结果,并利用大模型(LLM)提取关键数据。

## 目录结构
```
yindeng_skill/
├── skill.py             # 标准 Skill 接口 (Agent/Tool Use)
├── skill.json           # Skill 元数据定义
├── main.py              # CLI 入口脚本
├── crawler.py           # 核心爬虫逻辑
├── ocr_utils.py         # OCR 与数据汇总工具
├── requirements.txt     # 依赖清单
└── SKILL.md             # 说明文档
```

## Agent 集成 (CoPaw / Tool Use)

本 Skill 提供了标准的 Python 函数接口和 JSON Schema 定义,可供 AI Agent 直接调用。

### Python 接口
```python
from skill import run_yindeng_crawler

# 爬取并分析
result = run_yindeng_crawler(source="result", analyze=True)
print(result)
```

### Skill 定义 (skill.json)
包含完整的工具描述和参数定义,符合 OpenAI/Anthropics Tool Schema 标准。

## 功能特性
1. **多任务支持**:可同时爬取“转让公告”和“转让结果公告”。
2. **自动爬取**:根据日期(自动计算或指定)爬取银登网公告并下载 PDF。
3. **智能分析**:支持多模型(DeepSeek、千问、硅基流动等)提取 PDF 中的关键金融数据。
4. **数据导出**:
   - 爬取记录 Excel
   - 债权转让证明信息汇总(仅结果公告,含 OCR 数据)
   - LLM 分析结果报表 (`analysis_result.xlsx`)

## 部署与使用

### 1. 安装依赖
在运行环境或 Docker 容器中安装 Python 依赖(需提前安装 Tesseract-OCR 和 Poppler):
```bash
pip install -r requirements.txt
```

### 2. 环境变量配置 (LLM)
设置以下环境变量以启用 LLM 分析功能。本 Skill 支持多种 LLM 提供商。

#### 通用配置
- `LLM_API_KEY`: **(必须)** 您的 API Key。
- `LLM_PROVIDER`: (可选) 指定服务商,如 `deepseek`, `siliconflow`, `qwen`。默认为 `deepseek`。
- `LLM_API_BASE`: (可选) API 基础地址。
- `LLM_MODEL`: (可选) 模型名称。

#### 常用服务商配置示例

**DeepSeek (默认)**
```bash
export LLM_API_KEY="sk-..."
export LLM_PROVIDER="deepseek"
# 默认 BASE: https://api.deepseek.com/v1
# 默认 MODEL: deepseek-chat
```

**硅基流动 (SiliconFlow)**
```bash
export LLM_API_KEY="sk-..."
export LLM_PROVIDER="siliconflow"
# 默认 BASE: https://api.siliconflow.cn/v1
# 默认 MODEL: deepseek-ai/DeepSeek-V3
```

**通义千问 (DashScope/Aliyun)**
```bash
export LLM_API_KEY="sk-..."
export LLM_PROVIDER="qwen"
# 默认 BASE: https://dashscope.aliyuncs.com/compatible-mode/v1
# 默认 MODEL: qwen-plus
```

### 3. 调用方式

**默认运行(爬取公告 + 结果):**
```bash
python main.py
```

**仅爬取转让结果:**
```bash
python main.py --source result
```

**爬取并启用 LLM 分析:**
```bash
python main.py --analyze
```

**指定日期运行:**
```bash
python main.py 2026-03-03
```

## 输出结果
- **转让公告**: `YYYY-MM-DD银登公告/`
- **转让结果**: `YYYY-MM-DD银登公告结果/`
  - `*债权转让证明信息汇总.xlsx`: 包含 OCR 识别后的结构化数据。
  - `analysis_result.xlsx`: 包含 LLM 提取的深度分析数据。

## 退出码说明
- `0`: 成功且有新数据。
- `2`: 成功但**暂无更新**(所有任务均无新增数据)。
- `1`: 运行出错。