技能详情(站内镜像,无评论)
作者:huqngqic @aiyouBug
许可证:MIT-0
MIT-0 ·免费使用、修改和重新分发。无需归因。
版本:v1.0.0
统计:⭐ 1 · 183 · 0 current installs · 0 all-time installs
⭐ 1
安装量(当前) 0
🛡 VirusTotal :良性 · OpenClaw :可疑
Package:aiyoubug/yindenganalyse
安全扫描(ClawHub)
- VirusTotal :良性
- OpenClaw :可疑
OpenClaw 评估
技能总体与说明一致(爬取银登并用 OCR/LLM 提取数据),但存在说明与清单不一致(manifest 未声明需要 LLM 密钥)且会把 PDF 文本发送到第三方 LLM,可能导致敏感数据外泄——在安装前请审慎评估并确保使用受信的 LLM 服务或对敏感信息做脱敏。
目的
技能名与描述匹配代码行为:爬取银登公告/结果、下载 PDF、做 OCR 并可调用 LLM 做结构化提取。依赖(OCR、PDF 处理、requests 等)与目标一致。但 registry/skill.json 声明“无需环境变量”,而运行时(SKILL.md 与代码)明确要求 LLM_API_KEY/LLM_PROVIDER 等环境变量——这是元数据与实际需求的不一致,值得注意。
说明范围
SKILL.md 与代码指示:爬取页面、下载并保存 PDF、对 PDF 做文本提取/OCR,然后将提取的文本(代码会把最多前 15000 字符放入提示)通过 HTTP POST 发送到第三方 LLM endpoint(deepseek/siliconflow/qwen 等可配置)。这会把公告中的内容(可能含个人信息或敏感财务数据)发送到外部服务,存在数据泄露风险。代码并未主动读取或 exfiltrate 其他本地 secrets, 也没有隐藏的外部端点,但默认会向用户配置的 LLM API 发送数据。
安装机制
无自动下载安装脚本;为 instruction-only(但包含源码)。requirements.txt 列出常见库(requests、pdf2image、pytesseract 等),并在文档中提醒安装 Tesseract/Poppler。没有从不明 URL 下载可执行文件,install 机制总体可审计。
证书
运行时实际需要 LLM_API_KEY、可选 LLM_PROVIDER/LLM_API_BASE/LLM_MODEL(SKILL.md 明确),这些与启用 LLM 分析直接相关,是比例内的权限请求。但 registry metadata did not declare required env vars — mismatch. 要求的凭据是一个第三方 API key(敏感),安装前应确认该 key 仅授予最小权限且服务受信任。
持久
skill.json 中没有 always:true,且代码不修改其他技能或系统范围配置。技能不会强制常驻或提升平台权限。
安装(复制给龙虾 AI)
将下方整段复制到龙虾中文库对话中,由龙虾按 SKILL.md 完成安装。
请把本段交给龙虾中文库(龙虾 AI)执行:为本机安装 OpenClaw 技能「yindeng_ analyse」。简介:自动爬取银登网不良贷款转让公告及结果,支持多模型提取关键金融数据并导出结构化分析报告。。
请 fetch 以下地址读取 SKILL.md 并按文档完成安装:https://raw.githubusercontent.com/openclaw/skills/refs/heads/main/skills/aiyoubug/yindenganalyse/SKILL.md
(来源:yingzhi8.cn 技能库)
SKILL.md
# CoPAW 银登公告与结果爬取 Skill
这是一个用于 CoPAW (Copilot Automation Workflow) 的标准 Skill,支持自动爬取银登网不良贷款转让公告及转让结果,并利用大模型(LLM)提取关键数据。
## 目录结构
```
yindeng_skill/
├── skill.py # 标准 Skill 接口 (Agent/Tool Use)
├── skill.json # Skill 元数据定义
├── main.py # CLI 入口脚本
├── crawler.py # 核心爬虫逻辑
├── ocr_utils.py # OCR 与数据汇总工具
├── requirements.txt # 依赖清单
└── SKILL.md # 说明文档
```
## Agent 集成 (CoPaw / Tool Use)
本 Skill 提供了标准的 Python 函数接口和 JSON Schema 定义,可供 AI Agent 直接调用。
### Python 接口
```python
from skill import run_yindeng_crawler
# 爬取并分析
result = run_yindeng_crawler(source="result", analyze=True)
print(result)
```
### Skill 定义 (skill.json)
包含完整的工具描述和参数定义,符合 OpenAI/Anthropics Tool Schema 标准。
## 功能特性
1. **多任务支持**:可同时爬取“转让公告”和“转让结果公告”。
2. **自动爬取**:根据日期(自动计算或指定)爬取银登网公告并下载 PDF。
3. **智能分析**:支持多模型(DeepSeek、千问、硅基流动等)提取 PDF 中的关键金融数据。
4. **数据导出**:
- 爬取记录 Excel
- 债权转让证明信息汇总(仅结果公告,含 OCR 数据)
- LLM 分析结果报表 (`analysis_result.xlsx`)
## 部署与使用
### 1. 安装依赖
在运行环境或 Docker 容器中安装 Python 依赖(需提前安装 Tesseract-OCR 和 Poppler):
```bash
pip install -r requirements.txt
```
### 2. 环境变量配置 (LLM)
设置以下环境变量以启用 LLM 分析功能。本 Skill 支持多种 LLM 提供商。
#### 通用配置
- `LLM_API_KEY`: **(必须)** 您的 API Key。
- `LLM_PROVIDER`: (可选) 指定服务商,如 `deepseek`, `siliconflow`, `qwen`。默认为 `deepseek`。
- `LLM_API_BASE`: (可选) API 基础地址。
- `LLM_MODEL`: (可选) 模型名称。
#### 常用服务商配置示例
**DeepSeek (默认)**
```bash
export LLM_API_KEY="sk-..."
export LLM_PROVIDER="deepseek"
# 默认 BASE: https://api.deepseek.com/v1
# 默认 MODEL: deepseek-chat
```
**硅基流动 (SiliconFlow)**
```bash
export LLM_API_KEY="sk-..."
export LLM_PROVIDER="siliconflow"
# 默认 BASE: https://api.siliconflow.cn/v1
# 默认 MODEL: deepseek-ai/DeepSeek-V3
```
**通义千问 (DashScope/Aliyun)**
```bash
export LLM_API_KEY="sk-..."
export LLM_PROVIDER="qwen"
# 默认 BASE: https://dashscope.aliyuncs.com/compatible-mode/v1
# 默认 MODEL: qwen-plus
```
### 3. 调用方式
**默认运行(爬取公告 + 结果):**
```bash
python main.py
```
**仅爬取转让结果:**
```bash
python main.py --source result
```
**爬取并启用 LLM 分析:**
```bash
python main.py --analyze
```
**指定日期运行:**
```bash
python main.py 2026-03-03
```
## 输出结果
- **转让公告**: `YYYY-MM-DD银登公告/`
- **转让结果**: `YYYY-MM-DD银登公告结果/`
- `*债权转让证明信息汇总.xlsx`: 包含 OCR 识别后的结构化数据。
- `analysis_result.xlsx`: 包含 LLM 提取的深度分析数据。
## 退出码说明
- `0`: 成功且有新数据。
- `2`: 成功但**暂无更新**(所有任务均无新增数据)。
- `1`: 运行出错。