🚀
默认离线可用
不依赖云服务即可完成清理、去重、分类与导出,适合本地批处理和长期维护。规则引擎提供亚毫秒级响应。
通过 config.json 与词表配置调节规则、阈值和目录组织,不必先改代码。YAML 词表支持受控词表与分面分类。
在规则优先基础上叠加 ML、语义分析和可选 OpenAI 兼容 LLM,失败时自动回退,无需担心服务可用性。
支持 HTML、Markdown、JSON 等多种格式导出,兼顾浏览器回导、知识库归档和二次处理需求。
提供 cleanbook 命令行工具和 cleanbook-wizard 交互向导,支持批处理和自动化集成。
基于域名、标题、URL 多级特征提取,融合规则引擎与机器学习,分类准确率达 91.4%。
解析 HTML/JSON 格式的书签文件,提取 URL、标题、文件夹结构
URL 规范化与多维度相似度检测,识别重复和低质量链接
规则引擎 + ML + 语义分析 + LLM 融合分类
生成整理后的书签文件和统计报告
CleanBook 的核心设计理念是"离线优先"。不依赖任何云服务即可完成书签的清理、去重、分类与导出。您的书签数据永远不会离开您的设备。
所有功能都可通过配置文件调节,无需修改代码:
{
"category_rules": {
"技术/AI": {
"rules": [
{ "match": "domain", "keywords": ["openai.com", "huggingface.co"], "weight": 15 }
]
}
},
"ai_settings": {
"confidence_threshold": 0.7,
"cache_size": 10000
}
}系统采用多层分类策略,自动降级保证可用性:
规则引擎 (30%) + ML分类器 (25%) + 语义分析 (20%) + LLM (15%) + 用户画像 (10%)当某一层级不可用时,系统会自动将权重重新分配给其他层级,确保分类质量。
支持多种输出格式,满足不同场景需求:
| 格式 | 用途 | 特点 |
|---|---|---|
| HTML | 浏览器导入 | 标准 Netscape 格式,兼容所有浏览器 |
| JSON | 数据分析 | 结构化数据,便于二次处理 |
| Markdown | 知识库 | 适合 Notion/Obsidian 等工具 |
pipx install cleanbookpip install cleanbookgit clone https://github.com/LessUp/bookmarks-cleaner.git
cd bookmarks-cleaner && pip install .# 基础清理
cleanbook -i bookmarks.html -o output/
# 带 ML 训练
cleanbook -i bookmarks.html --train
# 交互式向导
cleanbook-wizardCleanBook 面向"长期维护浏览器书签"的场景:
Made with ❤️ by LessUp