CleanBook智能书签清理与分类

规则优先，ML 辅助，LLM 可选；默认离线可用的浏览器书签整理工具

快速开始

查看 GitHub

🚀

默认离线可用

不依赖云服务即可完成清理、去重、分类与导出，适合本地批处理和长期维护。规则引擎提供亚毫秒级响应。

⚙️

配置驱动

通过 config.json 与词表配置调节规则、阈值和目录组织，不必先改代码。YAML 词表支持受控词表与分面分类。

🤖

渐进增强

在规则优先基础上叠加 ML、语义分析和可选 OpenAI 兼容 LLM，失败时自动回退，无需担心服务可用性。

📦

多格式输出

支持 HTML、Markdown、JSON 等多种格式导出，兼顾浏览器回导、知识库归档和二次处理需求。

🔧

CLI 优先

提供 cleanbook 命令行工具和 cleanbook-wizard 交互向导，支持批处理和自动化集成。

📊

智能分类

基于域名、标题、URL 多级特征提取，融合规则引擎与机器学习，分类准确率达 91.4%。

v2.0.0·稳定版

CleanBook

智能书签清理与分类

规则优先，ML 辅助，LLM 可选；默认离线可用的浏览器书签整理工具

快速开始 →GitHub

91.4%准确率

Offline优先

MIT开源

bookmarks.html

<H3 class="data">
  <DT>AI/ML</DT>
  <DL>
    <p><A HREF="...">
      🔥 PyTorch 文档
    </A></p>
  </DL>
</H3>

为什么选择 CleanBook？

分类准确率

在 10000+ 书签样本上测试

书签/秒

单核处理速度

网络依赖

默认离线运行

输出格式

HTML / JSON / Markdown

一键体验

cleanbook — bash

处理流水线

📄

数据解析

解析 HTML/JSON 格式的书签文件，提取 URL、标题、文件夹结构

Netscape HTMLJSONChrome/Firefox

→

🔍

智能去重

URL 规范化与多维度相似度检测，识别重复和低质量链接

URL NormSimHashLevenshtein

→

🤖

多层级分类

规则引擎 + ML + 语义分析 + LLM 融合分类

91.4% AccFusion VotingAuto-Fallback

→

📦

输出生成

生成整理后的书签文件和统计报告

HTMLMarkdownJSON

核心特性

🚀 默认离线可用

CleanBook 的核心设计理念是"离线优先"。不依赖任何云服务即可完成书签的清理、去重、分类与导出。您的书签数据永远不会离开您的设备。

⚙️ 配置驱动设计

所有功能都可通过配置文件调节，无需修改代码：

json

{
  "category_rules": {
    "技术/AI": {
      "rules": [
        { "match": "domain", "keywords": ["openai.com", "huggingface.co"], "weight": 15 }
      ]
    }
  },
  "ai_settings": {
    "confidence_threshold": 0.7,
    "cache_size": 10000
  }
}

🤖 渐进式智能

系统采用多层分类策略，自动降级保证可用性：

规则引擎 (30%) + ML分类器 (25%) + 语义分析 (20%) + LLM (15%) + 用户画像 (10%)

当某一层级不可用时，系统会自动将权重重新分配给其他层级，确保分类质量。

📦 多格式导出

支持多种输出格式，满足不同场景需求：

格式	用途	特点
HTML	浏览器导入	标准 Netscape 格式，兼容所有浏览器
JSON	数据分析	结构化数据，便于二次处理
Markdown	知识库	适合 Notion/Obsidian 等工具

开始使用

安装

pipx 推荐pip源码

bash

pipx install cleanbook

bash

pip install cleanbook

bash

git clone https://github.com/LessUp/bookmarks-cleaner.git
cd bookmarks-cleaner && pip install .

首次运行

bash

# 基础清理
cleanbook -i bookmarks.html -o output/

# 带 ML 训练
cleanbook -i bookmarks.html --train

# 交互式向导
cleanbook-wizard

项目定位

CleanBook 面向"长期维护浏览器书签"的场景：

个人用户: 想先离线整理书签，再视需要引入 ML / LLM 的浏览器重度使用者
团队维护者: 需要统一团队书签分类规则、词表和输出格式的技术负责人
开发者: 想了解书签处理流水线、分类融合与配置驱动设计的开源贡献者

CleanBook智能书签清理与分类

默认离线可用

配置驱动

渐进增强

多格式输出

CLI 优先

智能分类

CleanBook

为什么选择 CleanBook？

一键体验

处理流水线

数据解析

智能去重

多层级分类

输出生成

核心特性

🚀 默认离线可用

⚙️ 配置驱动设计

🤖 渐进式智能

📦 多格式导出

开始使用

安装

首次运行

项目定位

推荐学习路径

我只想把书签整理好

我想理解系统怎么工作

我准备参与开发

CleanBook智能书签清理与分类

默认离线可用

配置驱动

渐进增强

多格式输出

CLI 优先

智能分类

CleanBook

为什么选择 CleanBook？ ​

一键体验 ​

处理流水线 ​

数据解析

智能去重

多层级分类

输出生成

核心特性 ​

🚀 默认离线可用 ​

⚙️ 配置驱动设计 ​

🤖 渐进式智能 ​

📦 多格式导出 ​

开始使用 ​

安装 ​

首次运行 ​

项目定位 ​

推荐学习路径 ​

我只想把书签整理好 ​

我想理解系统怎么工作 ​

我准备参与开发 ​

为什么选择 CleanBook？

一键体验

处理流水线

核心特性

🚀 默认离线可用

⚙️ 配置驱动设计

🤖 渐进式智能

📦 多格式导出

开始使用

安装

首次运行

项目定位

推荐学习路径

我只想把书签整理好

我想理解系统怎么工作

我准备参与开发