原料情报局 · Issue 01|从一个人的项目说起
Issue 01|从一个人的项目说起
原料情报局 · API Intelligence Notes · Issue 01
从一个人的项目说起
全球原料药情报体系的远景与笔记
2025.03 · 作者:有料平台 · 首发:youliao.info · 同步:原料情报局
本期内容
借助AI技术,一个人做一件以前需要一个团队才能做的事——这件事正在从设想变成现实。这个系列记录的,就是这个过程。
— 写在开篇
远景目标:一个全球原料药情报平台
这个项目的终点,是一个覆盖全球主要市场的原料药(API)情报平台——多语言、多国家、多监管体系,能够回答以下这些问题:
一个API品种,全球有哪些供应商,分布在哪些国家,谁在美国/欧盟/日本有注册?
某家中国原料药企业,在海外主要市场拿到了哪些准入资质?
一个品种要进入美国市场,需要递交DMF,流程是什么,通常需要多久?
欧盟CEP认证和美国DMF有什么本质区别,哪个更难拿?
日本PMDA对中国原料药的审查逻辑,和FDA有哪些不同?
某品种在中国CDE的登记状态,和在FDA的DMF状态,数据是否一致?
这六个问题,对应的是制药企业市场准入决策中最高频的信息需求。现有公开数据库(FDA、EMA、CDE、PMDA等)都有各自的入口,但数据孤立、语言不通、维度割裂——没有一个地方能把它们串联起来。
为什么现在是合适的时机?
三件事同时成熟:各国监管机构的数据正在走向公开化;AI在文本处理、多语言翻译、实体识别上的能力已经实用;个人开发工具(Cursor、Trae、Claude)让单人项目的可行边界大幅扩展。
五年前这件事需要一个团队。现在,一个人+AI,在合理范围内是可以做到的。
第一步:从FDA DMF开始
选择FDA DMF作为起点,原因很实际:数据公开、结构清晰、全球通用度最高。几乎所有想进入美国市场的原料药企业都要提交DMF,这份数据库本质上是一份全球原料药供应商的名录。
从这里出发,向外延伸:中国CDE登记→欧盟CEP→日本PMDA→WHO PQ。每向外扩一步,都是一次新的数据对齐工程。
为什么要把这个过程写下来
做一个长期项目,最难的不是技术,是在反复遇到问题时不放弃。写下来,是我对抗挫折感的方式。
这个系列的性质,是工作笔记,不是教程。它记录的是:
我在做这件事时遇到的具体问题,以及解决过程
数据本身的特点——哪些字段可信,哪些有坑,边界在哪里
不同监管体系之间真实的差异,而不是教科书式的概述
AI在这个过程里能做什么,不能做什么
单人项目的取舍逻辑——哪些事值得深做,哪些够用就好
写给自己,也写给同样在做类似事情的人——制药行业里做市场准入、做BD、做研发选品的人,以及想用数据辅助决策但不知道从哪里入手的人。
每一个遇到的坑,都值得被记录。不是因为坑有多深,而是因为下一次可以绕过去。
系列大纲:计划写什么
以下是目前规划的系列内容,会随实际推进情况调整。每一期对应一个具体的问题域:
ISSUE · 01
起点:远景与笔记性质
项目目标、FDA DMF基础、FDA vs CDE对比、第一个数据挑战
当前ISSUE · 02
数据工程:公司名的识别地狱
40000条数据里的中国企业识别——规则、词典、AI,三层方案的实战记录
ISSUE · 03
品种标准化:CAS不是银弹
API名称的盐/酯/水合物处理,CAS号的来源与可信度,INN vs USAN的差异
ISSUE · 04
中国视角:CDE登记 vs FDA DMF
两套系统的深度对比、数据交叉验证、中国企业出海准入路径分析
ISSUE · 05
欧盟CEP:另一套逻辑
欧洲药典认证的申请流程、和DMF的本质差异、中国企业持证现状
ISSUE · 06
竞争分析:用数据看市场格局
以GLP-1为例,DMF数据里的供应链布局解读,中国原料药企业的全球位置
ISSUE · 07
日本PMDA:被忽视的大市场
MF制度与DMF的区别、中国企业在日本的准入现状
FDA DMF vs CDE登记:两套系统的对比
FDA DMF和CDE登记,是中美两国原料药准入的核心数据源。它们看起来在做同一件事——记录原料药信息——但底层逻辑完全不同。
| 维度 | FDA DMF | CDE登记 |
|---|---|---|
| 数据公开 | 完全公开 | 完全公开 |
| 字段完整性 | 部分公开 | 高度完整 |
| 企业识别 | 困难(名称不规范) | 规范(统一社会信用代码) |
| 品种识别 | 部分有CAS | 部分有CAS |
| 状态追踪 | 无状态字段 | A/I状态,可追踪 |
关键差异解读
企业识别是最大的痛点。FDA DMF里的公司名称是申请人自己填写的,没有标准化——同一家公司可能有十几种写法。CDE登记则绑定了统一社会信用代码,企业身份是确定的。
状态追踪是另一个关键差异。CDE登记有明确的"A"(已通过审评)和"I"(未通过)状态,可以追踪一个品种从登记到通过的全过程。FDA DMF没有状态字段,只知道DMF号存在,不知道它是否被引用、是否有效。
这两点差异,决定了后续数据处理的策略完全不同。
第一个数据挑战:公司名识别
FDA DMF数据库里有超过40000条记录,其中相当一部分来自中国企业。但问题是:如何从名称里识别出它们?
举几个真实例子:
Zhejiang Huahai Pharmaceutical Co., Ltd. Zhejiang Huahai Pharma HUAHAI PHARMACEUTICAL Zhejiang Huahai 华海药业 华海
这六个名称,指向同一家公司。在40000条数据里,类似的情况比比皆是。
下一期,我会详细记录这个问题的解决过程——从规则匹配到词典构建,再到AI辅助的实体识别,以及最终采用的混合方案。
Issue 02 预告:公司名的识别地狱
下一期将深入探讨FDA DMF数据中的企业名称识别问题,包括:
名称变体的来源:为什么同一家公司会有这么多写法
规则匹配的边界:哪些情况可以用规则解决,哪些不行
词典构建:如何从公开数据中提取中国企业标准名称
AI辅助:大模型在实体识别中的实际效果
NEXT
Issue 02:公司名的识别地狱
40000条数据里的中国企业识别实战
关于本系列
《原料情报局 · API Intelligence Notes》是一个长期写作计划,记录全球原料药情报平台从零到一的建设过程。每期聚焦一个具体问题,提供真实的数据分析和解决方案。
联系方式
网站:youliao.info
公众号:原料情报局