In this paper, we propose AnalogSeeker, an effort toward an open-source foundation language model for analog circuit design, with the aim of integrating domain knowledge and giving design assistance. To overcome the scarcity of data in this field, we employ a corpus collection strategy based on the domain knowledge framework of analog circuits. High-quality, accessible textbooks across relevant subfields are systematically curated and cleaned into a textual domain corpus. To address the complexity of knowledge of analog circuits, we introduce a granular domain knowledge distillation method. Raw, unlabeled domain corpus is decomposed into typical, granular learning nodes, where a multi-agent framework distills implicit knowledge embedded in unstructured text into question-answer data pairs with detailed reasoning processes, yielding a fine-grained, learnable dataset for fine-tuning. To address the unexplored challenges in training analog circuit foundation models, we explore and share our training methods through both theoretical analysis and experimental validation. We finally establish a fine-tuning-centric training paradigm, customizing and implementing a neighborhood self-constrained supervised fine-tuning algorithm. This approach enhances training outcomes by constraining the perturbation magnitude between the model's output distributions before and after training. In practice, we train the Qwen2.5-32B-Instruct model to obtain AnalogSeeker, which achieves 85.04% accuracy on AMSBench-TQA, the analog circuit knowledge evaluation benchmark, with a 15.67% point improvement over the original model and is competitive with mainstream commercial models. Furthermore, AnalogSeeker also shows effectiveness in the downstream operational amplifier design task. AnalogSeeker is open-sourced at https://huggingface.co/analogllm/analogseeker for research use.


翻译:本文提出AnalogSeeker,旨在构建一个面向模拟电路设计的开源基础语言模型,以整合领域知识并提供设计辅助。为克服该领域数据稀缺的问题,我们采用基于模拟电路领域知识框架的语料收集策略,系统性地筛选并清理相关子领域的高质量、可获取的教科书,构建为文本领域语料。针对模拟电路知识的复杂性,我们引入一种细粒度领域知识蒸馏方法:将原始未标注的领域语料分解为典型的细粒度学习节点,通过多智能体框架将非结构化文本中隐含的知识蒸馏为带有详细推理过程的问题-答案数据对,从而生成适用于微调的细粒度可学习数据集。针对模拟电路基础模型训练中尚未探索的挑战,我们通过理论分析与实验验证,探索并分享了训练方法。最终建立以微调为核心的训练范式,定制并实现了邻域自约束监督微调算法,该方法通过约束模型训练前后输出分布之间的扰动幅度来提升训练效果。实践中,我们基于Qwen2.5-32B-Instruct模型训练得到AnalogSeeker,其在模拟电路知识评估基准AMSBench-TQA上达到85.04%的准确率,较原始模型提升15.67个百分点,并与主流商业模型具有竞争力。此外,AnalogSeeker在下游运算放大器设计任务中也展现出有效性。AnalogSeeker已在https://huggingface.co/analogllm/analogseeker开源供研究使用。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员