cafe3310's picture
feat: Implement colored output for thinking tokens
0d2c9df
|
raw
history blame
2.66 kB

Gemini 工作流与记忆

工作规则

  • 我会始终跟踪「项目目标」。
  • 我会根据你的建议随时调整「子目标」。
  • 我的工作核心是:将「子目标」拆解为「Todolist」中的具体任务,并聚焦于执行当前任务。
  • 我会随时反思「Todolist」中的任务是否偏离了最终的「项目目标」。

项目目标

未完成

  • 构建一个能够综合利用 Ring-mini-2.0Ling-flash-2.0 (或其量化版本) 的工作流应用。

已完成

  • (暂无)

子目标

未完成

  • (进行中) 在 Gradio UI 中区分“思考”和“正文” token。
  • 实现自动化部署和验证流程。

已完成

  • 解决模型体积过大导致部署失败的问题。
  • 使用 LangGraph 实现一个可以路由两个模型的聊天网页应用。

Todolist

未完成

  • (进行中) 为“思考”和“正文” token 实现不同的颜色显示。
  • (已暂停) 搜索 huggingface_hub 文档,确认是否存在用于重启 Space 的 API。

已完成

  • 实现调试模式以观察“思考”和“正文” token 的区别。
  • 修改 app.py,移除 Ling-flash-2.0 模型,只保留 Ring-mini-2.0
  • (用户决策) 确认 Ling-flash-2.0 模型过大,暂时移除,仅使用 Ring-mini-2.0
  • 搭建 LangGraph 基础架构并重构 app.py
  • 实现基于用户输入的模型路由逻辑。
  • 修复 NameError: name 'operator' is not defined 的 bug。
  • README.md 中链接模型。
  • 创建并维护 GEMINI.md 文件。

核心模型

技术栈及限制

  • 语言: Python
  • 框架: Gradio
  • 推理逻辑: 由于这些模型没有 API 服务方,推理逻辑必须使用 PyTorch 自行实现。**禁止使用 InferenceClient**。

依赖包 (Dependencies)

开发环境及资源

  • 平台: HuggingFace Spaces
  • 订阅: HuggingFace Pro
  • 推理资源: 可以使用 ZeroGPU
  • 文档参考: 在必要的时候,主动搜索 HuggingFace 以及 Gradio 的在线 API 文档。