2026-04-02·原料情报局·25 分钟阅读

原料情报局 · Issue 01｜从一个人的项目说起

Issue 01｜从一个人的项目说起

原料情报局 · API Intelligence Notes · Issue 01

从一个人的项目说起
全球原料药情报体系的远景与笔记

2025.03 · 作者：有料平台 · 首发：youliao.info · 同步：原料情报局

本期内容

远景目标为何写笔记系列大纲 FDA vs CDE 数据挑战

借助AI技术，一个人做一件以前需要一个团队才能做的事——这件事正在从设想变成现实。这个系列记录的，就是这个过程。

— 写在开篇

远景目标：一个全球原料药情报平台

这个项目的终点，是一个覆盖全球主要市场的原料药（API）情报平台——多语言、多国家、多监管体系，能够回答以下这些问题：

一个API品种，全球有哪些供应商，分布在哪些国家，谁在美国/欧盟/日本有注册？

某家中国原料药企业，在海外主要市场拿到了哪些准入资质？

一个品种要进入美国市场，需要递交DMF，流程是什么，通常需要多久？

欧盟CEP认证和美国DMF有什么本质区别，哪个更难拿？

日本PMDA对中国原料药的审查逻辑，和FDA有哪些不同？

某品种在中国CDE的登记状态，和在FDA的DMF状态，数据是否一致？

这六个问题，对应的是制药企业市场准入决策中最高频的信息需求。现有公开数据库（FDA、EMA、CDE、PMDA等）都有各自的入口，但数据孤立、语言不通、维度割裂——没有一个地方能把它们串联起来。

为什么现在是合适的时机？

三件事同时成熟：各国监管机构的数据正在走向公开化；AI在文本处理、多语言翻译、实体识别上的能力已经实用；个人开发工具（Cursor、Trae、Claude）让单人项目的可行边界大幅扩展。

五年前这件事需要一个团队。现在，一个人+AI，在合理范围内是可以做到的。

第一步：从FDA DMF开始

选择FDA DMF作为起点，原因很实际：数据公开、结构清晰、全球通用度最高。几乎所有想进入美国市场的原料药企业都要提交DMF，这份数据库本质上是一份全球原料药供应商的名录。

从这里出发，向外延伸：中国CDE登记→欧盟CEP→日本PMDA→WHO PQ。每向外扩一步，都是一次新的数据对齐工程。

为何写笔记

为什么要把这个过程写下来

做一个长期项目，最难的不是技术，是在反复遇到问题时不放弃。写下来，是我对抗挫折感的方式。

这个系列的性质，是工作笔记，不是教程。它记录的是：

我在做这件事时遇到的具体问题，以及解决过程

数据本身的特点——哪些字段可信，哪些有坑，边界在哪里

不同监管体系之间真实的差异，而不是教科书式的概述

AI在这个过程里能做什么，不能做什么

单人项目的取舍逻辑——哪些事值得深做，哪些够用就好

写给自己，也写给同样在做类似事情的人——制药行业里做市场准入、做BD、做研发选品的人，以及想用数据辅助决策但不知道从哪里入手的人。

每一个遇到的坑，都值得被记录。不是因为坑有多深，而是因为下一次可以绕过去。

系列大纲

系列大纲：计划写什么

以下是目前规划的系列内容，会随实际推进情况调整。每一期对应一个具体的问题域：

ISSUE · 01

起点：远景与笔记性质

项目目标、FDA DMF基础、FDA vs CDE对比、第一个数据挑战

当前

ISSUE · 02

数据工程：公司名的识别地狱

40000条数据里的中国企业识别——规则、词典、AI，三层方案的实战记录

ISSUE · 03

品种标准化：CAS不是银弹

API名称的盐/酯/水合物处理，CAS号的来源与可信度，INN vs USAN的差异

ISSUE · 04

中国视角：CDE登记 vs FDA DMF

两套系统的深度对比、数据交叉验证、中国企业出海准入路径分析

ISSUE · 05

欧盟CEP：另一套逻辑

欧洲药典认证的申请流程、和DMF的本质差异、中国企业持证现状

ISSUE · 06

竞争分析：用数据看市场格局

以GLP-1为例，DMF数据里的供应链布局解读，中国原料药企业的全球位置

ISSUE · 07

日本PMDA：被忽视的大市场

MF制度与DMF的区别、中国企业在日本的准入现状

FDA vs CDE

FDA DMF vs CDE登记：两套系统的对比

FDA DMF和CDE登记，是中美两国原料药准入的核心数据源。它们看起来在做同一件事——记录原料药信息——但底层逻辑完全不同。

维度	FDA DMF	CDE登记
数据公开	完全公开	完全公开
字段完整性	部分公开	高度完整
企业识别	困难（名称不规范）	规范（统一社会信用代码）
品种识别	部分有CAS	部分有CAS
状态追踪	无状态字段	A/I状态，可追踪

关键差异解读

企业识别是最大的痛点。FDA DMF里的公司名称是申请人自己填写的，没有标准化——同一家公司可能有十几种写法。CDE登记则绑定了统一社会信用代码，企业身份是确定的。

状态追踪是另一个关键差异。CDE登记有明确的"A"（已通过审评）和"I"（未通过）状态，可以追踪一个品种从登记到通过的全过程。FDA DMF没有状态字段，只知道DMF号存在，不知道它是否被引用、是否有效。

这两点差异，决定了后续数据处理的策略完全不同。

数据挑战

第一个数据挑战：公司名识别

FDA DMF数据库里有超过40000条记录，其中相当一部分来自中国企业。但问题是：如何从名称里识别出它们？

举几个真实例子：

Zhejiang Huahai Pharmaceutical Co., Ltd. Zhejiang Huahai Pharma HUAHAI PHARMACEUTICAL Zhejiang Huahai 华海药业华海

这六个名称，指向同一家公司。在40000条数据里，类似的情况比比皆是。

下一期，我会详细记录这个问题的解决过程——从规则匹配到词典构建，再到AI辅助的实体识别，以及最终采用的混合方案。

下期预告

Issue 02 预告：公司名的识别地狱

下一期将深入探讨FDA DMF数据中的企业名称识别问题，包括：

名称变体的来源：为什么同一家公司会有这么多写法

规则匹配的边界：哪些情况可以用规则解决，哪些不行

词典构建：如何从公开数据中提取中国企业标准名称

AI辅助：大模型在实体识别中的实际效果

Issue 02：公司名的识别地狱

40000条数据里的中国企业识别实战

关于本系列

《原料情报局 · API Intelligence Notes》是一个长期写作计划，记录全球原料药情报平台从零到一的建设过程。每期聚焦一个具体问题，提供真实的数据分析和解决方案。

联系方式

网站：youliao.info
公众号：原料情报局

从一个人的项目说起全球原料药情报体系的远景与笔记