2026-04-02·原料情报局·17 分钟阅读

原料情报局 · Issue 01|从一个人的项目说起

Issue 01|从一个人的项目说起

原料情报局 · API Intelligence Notes · Issue 01

从一个人的项目说起

全球原料药情报体系的远景与笔记

2025.03 · 作者:有料平台 · 首发:youliao.info

本期内容

远景目标 为何写笔记 系列大纲 FDA vs CDE 数据挑战

借助AI技术,一个人做一件以前需要一个团队才能做的事——这件事正在从设想变成现实。这个系列记录的,就是这个过程。

— 写在开篇

01

远景目标:一个全球原料药情报平台

这个项目的终点,是一个覆盖全球主要市场的原料药(API)情报平台——多语言、多国家、多监管体系,能够回答以下这些问题:

一个API品种,全球有哪些供应商,分布在哪些国家,谁在美国/欧盟/日本有注册?

某家中国原料药企业,在海外主要市场拿到了哪些准入资质?

一个品种要进入美国市场,需要递交DMF,流程是什么,通常需要多久?

欧盟CEP认证和美国DMF有什么本质区别,哪个更难拿?

日本PMDA对中国原料药的审查逻辑,和FDA有哪些不同?

某品种在中国CDE的登记状态,和在FDA的DMF状态,数据是否一致?

这六个问题,对应的是制药企业市场准入决策中最高频的信息需求。现有公开数据库(FDA、EMA、CDE、PMDA等)都有各自的入口,但数据孤立、语言不通、维度割裂——没有一个地方能把它们串联起来。

为什么现在是合适的时机?

三件事同时成熟:各国监管机构的数据正在走向公开化;AI在文本处理、多语言翻译、实体识别上的能力已经实用;个人开发工具(Cursor、Trae、Claude)让单人项目的可行边界大幅扩展。

五年前这件事需要一个团队。现在,一个人+AI,在合理范围内是可以做到的。

第一步:从FDA DMF开始

选择FDA DMF作为起点,原因很实际:数据公开、结构清晰、全球通用度最高。几乎所有想进入美国市场的原料药企业都要提交DMF,这份数据库本质上是一份全球原料药供应商的名录。

从这里出发,向外延伸:中国CDE登记→欧盟CEP→日本PMDA→WHO PQ。每向外扩一步,都是一次新的数据对齐工程。

—— 为何写笔记 ——

02

为什么要把这个过程写下来

做一个长期项目,最难的不是技术,是在反复遇到问题时不放弃。写下来,是我对抗挫折感的方式。

这个系列的性质,是工作笔记,不是教程。它记录的是:

我在做这件事时遇到的具体问题,以及解决过程

数据本身的特点——哪些字段可信,哪些有坑,边界在哪里

不同监管体系之间真实的差异,而不是教科书式的概述

AI在这个过程里能做什么,不能做什么

单人项目的取舍逻辑——哪些事值得深做,哪些够用就好

写给自己,也写给同样在做类似事情的人——制药行业里做市场准入、做BD、做研发选品的人,以及想用数据辅助决策但不知道从哪里入手的人。

每一个遇到的坑,都值得被记录。不是因为坑有多深,而是因为下一次可以绕过去。

—— 系列大纲 ——

03

系列大纲:计划写什么

以下是目前规划的系列内容,会随实际推进情况调整。每一期对应一个具体的问题域:

ISSUE · 01

起点:远景与笔记性质

项目目标、FDA DMF基础、FDA vs CDE对比、第一个数据挑战

ISSUE · 02

数据工程:公司名的识别地狱

40000条数据里的中国企业识别——规则、词典、AI,三层方案的实战记录

ISSUE · 03

品种标准化:CAS不是银弹

API名称的盐/酯/水合物处理,CAS号的来源与可信度

ISSUE · 04

中国视角:CDE登记 vs FDA DMF

两套系统的深度对比、数据交叉验证、中国企业出海准入路径分析

ISSUE · 05

欧盟CEP:另一套逻辑

欧洲药典认证的申请流程、和DMF的本质差异、中国企业持证现状

ISSUE · 06

竞争分析:用数据看市场格局

以GLP-1为例,DMF数据里的供应链布局解读

ISSUE · 07

日本PMDA:被忽视的大市场

MF制度与DMF的区别、中国企业在日本的准入现状

—— FDA vs CDE ——

04

FDA DMF vs CDE登记:两套系统的对比

FDA DMF和CDE登记,是中美两国原料药准入的核心数据源。它们看起来在做同一件事——记录原料药信息——但底层逻辑完全不同。

维度 FDA DMF CDE登记
数据公开 完全公开 完全公开
字段完整性 部分公开 高度完整
企业识别 困难 规范
品种识别 部分有CAS 部分有CAS
状态追踪 无状态字段 A/I状态可追踪

关键差异解读

企业识别是最大的痛点。FDA DMF里的公司名称是申请人自己填写的,没有标准化——同一家公司可能有十几种写法。CDE登记则绑定了统一社会信用代码,企业身份是确定的。

状态追踪是另一个关键差异。CDE登记有明确的"A"(已通过审评)和"I"(未通过)状态,可以追踪一个品种从登记到通过的全过程。FDA DMF没有状态字段,只知道DMF号存在,不知道它是否被引用、是否有效。

—— 数据挑战 ——

05

第一个数据挑战:公司名识别

FDA DMF数据库里有超过40000条记录,其中相当一部分来自中国企业。但问题是:如何从名称里识别出它们?

举几个真实例子:

Zhejiang Huahai Pharmaceutical Co., Ltd.
Zhejiang Huahai Pharma
HUAHAI PHARMACEUTICAL
Zhejiang Huahai
华海药业
华海

这六个名称,指向同一家公司。在40000条数据里,类似的情况比比皆是。

下一期,我会详细记录这个问题的解决过程——从规则匹配到词典构建,再到AI辅助的实体识别,以及最终采用的混合方案。

—— 下期预告 ——

06

Issue 02 预告:公司名的识别地狱

下一期将深入探讨FDA DMF数据中的企业名称识别问题,包括:

名称变体的来源:为什么同一家公司会有这么多写法

规则匹配的边界:哪些情况可以用规则解决,哪些不行

词典构建:如何从公开数据中提取中国企业标准名称

AI辅助:大模型在实体识别中的实际效果

NEXT

Issue 02:公司名的识别地狱

40000条数据里的中国企业识别实战

关于本系列

《原料情报局 · API Intelligence Notes》是一个长期写作计划,记录全球原料药情报平台从零到一的建设过程。每期聚焦一个具体问题,提供真实的数据分析和解决方案。

联系方式

网站:youliao.info
公众号:原料情报局

本文为行业参考分析,数据来源于公开市场信息

返回首页