浅谈专利行业自动标引的方法和工具

总第158期 陈舒炜 苏州兰登紫金信息技术有限公司专利分析师;马俊豪 苏州兰登紫金信息技术有限公司总经理发表,[专利]文章

  随着科技创新成为企业核心竞争力,专利也成为企业关注的重中之重。研发投入力度渐趋加大,企业专利布局逐渐加深,高质量专利日渐增多,已成为科技行业的一大趋势。由于对海量专利进行分析的需求不断增加,亟需传统人工分析之外的方法和技术助力专利分析。在其他法律服务领域,我们已经看到具有强大的信息处理能力的人工智能技术开始萌芽。以Ross系统为例,该系统是最早出现在法律行业的人工智能平台之一,其能够通过深度匹配算法提供最相关案例,让律师的调查和研究变得轻松。

  在知识产权领域,专利检索分析工作与海量专利数据联系紧密。本文将从专利标引的角度切入,探讨从专利中自动提取近义词,通过拓扑聚类等算法提供语义匹配,进而实现数据自动批量处理的各种方法和技术。

  专利标引的含义

  在不断的技术创新中,为避免重复研究和侵权行为,也为了更好地制定研究方向和市场竞争策略,研发人员需要对已有的专利信息进行检索和分析,掌握最新的技术进展[1]。

  标引是指对文献的主题内容、技术特征及其他有检索意义的特征进行分析,并使用关键字符、特征符号来表示文献的过程。专利数据的标引,是专利分析工作的重要基础。

  近年来,专利数量逐年递增,专利涵盖的内容包罗万象,新概念、新名词、新技术不断涌现。专利标引工作中,面对技术特征模糊、技术名词小众等问题时,复杂的技术特征难以通过技术名词的出现频率和字面意思确定,尤其面对多维度的标引需求时,仍需要标引人员阅读分析。这种以人工标引为主的标引方法耗时长,而自动智能的工具能提高标引效率,减轻专利分析工作的负担。

  常见的专利标引方法

  (一)人工标引

  人工标引,即标引人员结合自身经验和对专利内容的理解,分析技术信息后得出标引结果,是目前使用最为广泛的标引方法。专利中会出现同义词、近义词、简写和复合词组等多种表达,可通过建立词表规范控制[2],增加控制词避免漏检。有些研究则根据不同领域设定范畴分类,各级分类相互关联、紧扣上级[3]。

  但在专利密集行业,人工标引方法很难达到理想效果。国家知识产权局发布的一份公告显示,2018年,全国专利密集型产业增加值为107090亿元,这一数字背后是数量庞大的专利。标引海量数据不仅需要大量人力,而且因个人理解不同,难以保证标引一致性。

  (二)自动标引

  自动标引是指借助计算机实现数据批量处理,自动完成专利快速标引,无需花费大量时间输入标引项。在追求标引效率的今天,自动标引可大致分为三类:

  1.基于分类号的自动标引

  分类号包含专利的技术描述和分属类别等相关信息。国内外相关研究主要集中在如何建立更完善更统一的分类号体系,如欧洲专利局和美国专利商标局在2010年达成协议,在国际专利分类系统IPC基础上创建联合专利分类系统CPC[4]。

  专利分类系统为专利审查等工作带来便利,目前已有的一些专利分类系统,如IPC,CPC,FI和F-term,都是根据专利描述对象的所属领域来实现专利自动分类。将分类号信息作为标引结果,可能会导致标引结果表达范围宽泛或概念过大,难以定位复杂的技术特征,无法满足多维度的标引需求。

  2.基于TRIZ理论的自动分类

  TRIZ理论(发明问题解决理论)是前人通过对大量专利进行分析后,归纳出具有普遍用途的40个发明原理。国外一些学者提出以TRIZ条发明原理构建专利分析检索系统,国内也有学者将40条发明原理和39个工程参数用于专利分类系统研究,寻找利用了相似的发明原理或者解决了相似技术难题的专利。这些专利在技术领域上可能相差很远,甚至分布在不同的分类号体系中[5]。袁力[6]根据40条发明原理之间的相似性,并考虑许多发明原理存在的技术冲突,将发明原理重新分组。

  TRIZ发明原理不能全面地反映专利中涉及的技术信息,与分类号存在类似的问题,宽泛的概念范围会造成复杂的技术特征无法被精确划分和定位,尤其是新技术和新名词组合而成的技术特征。

  3.基于分类体系的二次分类

  不同于分类号这样单一的标准,基于分类体系的二次分类成为研究重点。就相似发明因产业不同而可能被归属不同分类的问题,Falasco[7]基于USPC体系,同时考虑相似发明并采用附加条件限制(如功能效果,根据产品功能与效果将专利再次分类)。郭炜强[8]根据IPC分类表的主题描述,抽取特征构建概念向量,从专利标题摘要中抽取特征关键词作为特征向量进行专利自动分类。

  基于分类体系的二次分类也可以称作个性化分类,在以国际分类系统为标准的分类结果上,以技术细节、产品功效和其他标引项为目标进行第二次分类。因为是针对某个特定目的而进行的二次分类,侧重点往往会导致数据分布不平衡,分类效果可能因技术领域、标引维度和细节程度而异,准确率有待进一步研究。

  (三)人工干预的计算机标引

  人工干预的计算机标引,是指以计算机自动标引为主,结合标引人员自身专业经验判断,实现专利分类标引的方法。有研究借助大数据和人工智能辅助专利标引[2],对于同一领域的专利,标引人员在前期的预标引过程中可以积累大量的技术信息,并借助大数据功能筛选高频词汇来构建标引词库,通过计算机实现自动化批量加工,极大提高标引效率。

  统计高频关键词汇便于标引人员后续调用,利用计算机实现批量处理,通过前期人工标引结合后期的计算机自动标引,形成“自动标引+人工干预”模式,极大提高标引效率。平衡两者的权重则需要具体情况具体分析。

  数据库标引功能介绍

  国内外一些常见的的商业数据库已具有专利标引功能。下面将具体介绍智慧芽数据库、Patentics数据库、PatentSight数据库、Incopat数据库和Orbit数据库的标引功能。

  (一)智慧芽数据库

  智慧芽数据库可以添加自定义字段,通过对自定义字段设置过滤条件实现专利筛选,选择批量标引可将符合条件的专利统一标注标引项。对于著录项信息的标引,如专利申请人,通过对申请人字段设置过滤条件,可快速获得申请人类型等筛选结果。但对于非著录项信息(如专利的技术和功效,其是专利文献内容全面表达的主题或特征),则无法通过著录项信息直接判断,也难以借助几个关键词筛选判断,容易导致遗漏信息。

  智慧芽数据库可以对专利的常规字段进行批量标引,适用于标引维度单一且标引项明确的专利,但仅仅筛选部分字段,很可能导致对专利内容的理解错误和遗漏,不适用于技术复杂的专利和多维度的标引项目。例如一篇同时具备风冷和水冷两种技术的散热装置,仅依靠关键词过滤无法正确判断成其技术构成。

  (二)Patentics数据库

  Patentics数据库的分类器功能,可以帮助用户实现专利智能分类。分类器可以直接导入专利公开号作为待分类数据,也可以将检索结果作为待分类数据,然后输入分组数量、分组名称以及各组对应的种子专利,通过设置相关度百分比,即可完成一定相关程度的专利智能分组。

  Patentics数据库的智能分组可适用于复杂的标引项目,更接近实际标引项目中所需的自动智能化标引。智能分组的关键点和难点在于种子专利和分组相关度。种子专利作为智能分组的依据,需要非常符合对应分组的技术领域和技术特征,拥有较多属于该技术领域的常用词汇。如何选择典型的种子专利,选取合适的相关度,应该通过预先测试后确定。

  (三)PatentSight数据库

  PatentSight数据库可以导入自定义字段并自动聚类。通过Excel表格数据导入,PatentSight数据库可以创建每列对应的字段名称,并能按照多种图表类型直接可视化,显示出自定义数据。对于自定义数据进行聚类,既可以按照IPC、CPC等分类体系分类聚类,也可以选择技术聚类树进行文本信息聚类。技术聚类树有4个层级,第一层级包含13个聚类主题,第四层级包含约73000个聚类主题,自动聚类的层级越多,聚类主题越细化。

  但自定义字段数据来源于Excel表格数据,表格数据的清洗工作本身就有很大的工作量。清洗完成的表格数据,其各列内容可以是著录项字段,也可以是由标题、摘要、权利要求书、说明书得出的主题内容和技术特征信息,那么数据本身就已经是标引数据了。因此,PatentSigh更适用于数据的聚类和可视化分析,而非自动标引。

  (四)Incopat数据库

  Incopat数据库借助智能库功能,可以对专利进行逐个标引和批量标引。将“类”视作标引项的标题,将“标签”视作标引项的内容,可以直接管理类和标签,将其标引到专利列表的显示字段中。这种标引方法能够实现批量操作,一定程度上减少标引工作量,但需要将人工阅读后得到的标引项内容输入为标签,本质上还是人工标引。

  Incopat数据库的AI检索功能值得一提。一般语义检索是根据说明书内容的相关度排序,而AI检索可以根据权利要求的相关度排序,除了提取名词和动词,还能提取量词、副词、介词和连接词;此外,AI检索在绘制关键词图谱过程中可以增加、删除和修改关键词,留出人工干预的操作空间。

  (五)Orbit数据库

  Orbit数据库可以将检索结果保存至工作文件,在多个Orbit账户之间共享专利列表,允许多个标引人员同时参与项目。工作文件中添加标签,可以对专利进行注释,相当于手动标引。Orbit数据库的语义检索功能允许用户输入文本,由Orbit系统实现中英文翻译和提取概念,匹配相关结果。自定义检索助手可显示Orbit系统自动提取的标签概念。

  思考与总结

  随着越来越多新技术的涌现,高新技术的专利数量将持续爆发增长。例如人工智能、5G和区块链这些新技术领域,过去三年内出现的专利数量分别约占其专利总数的72%、83%和94%,尤其是区块链技术增加了近万篇专利。人工标引不能适应信息时代的信息增速,其缺陷随着专利数量增长而逐渐凸显,亟待改进。寻找高效的标引方法,实现专利自动分类和标引,是当前及今后一个时期的研究重点。

  基于分类号和TRIZ理论的自动分类标引方法存在相似的问题,分类号信息和发明原理具有相对宽泛的概念范围,部分技术特征难以准确定位,复杂的技术无法得到细化从而影响分类,可能导致标引结果错误,最终对专利分析工作产生不良的连锁影响。二次分类方法补充了上述两种方法,根据特定的标引需求添加一个分类维度,有目的地完成第二次分类,但是二次分类的分类标准无法由计算机自主确定,仍需要根据第一次分类结果分析得出。

  自动标引在一定程度上可以有效减轻工作量,但在实际应用中仍存在诸多的短板,例如数据库的语义检索功能,提取概念词和关键词仅局限于名词和动词,也难以表达隶属关系和连接词。此外,自动标引对专利中模糊的概念和涉及的法律问题难以判断。目前为止,专利标引不能完全直接依赖自动标引技术,应通过标引人员的监管和干预,在保证标引结果一致性与完备性的同时,通过机器学习等手段,持续丰富基础知识库,最终实现自动标引系统的迭代升级。

  “自动标引+人工干预”的组合模式,是目前标引工作中最为合理的选择,结合人工标引和机器自动标引的优点,通过人工阅读作为预标引,积累高频关键词,加深技术理解;完善检索式运行出检索结果,交给计算机软件或数据库自动分类标引;然后根据相关度来取舍,高相关度的专利使用人工标引,确保标引的准确性;低相关度的专利可以进一步筛选分组,尽可能避免遗漏,保证查全率和查准率。

  综上所述,专利行业尚未成为主流人工智能技术应用的行业,而法律行业则先一步感受到了人工智能带来的快捷高效。包括英国BCLP在内的许多律所,已经引入Kira系统进行人工智能文档审查,大幅节省了工作时间。Kira公司CEO韦斯伯格表示,引入Kira系统后,律所律师所需的合同审查时间减少了20%-60%。著名的Ross系统程序能在数秒内浏览上千个案例,并给出一个最相关案例的排序列表,这是律师使用法律数据库检索数个小时才能完成的任务量。为日常法律工作量身定制的人工智能技术,能大幅减少繁琐的重复性劳动,提高工作效率。

  尽管Kira系统节省了人工阅读文件的时间,但其审查结果仍然需要人的审核。Ross系统CTO表示,Ross系统善于识别问题和案例的要点,但距离完全自动化的目标还有很长的路要走。人工智能的发展,正在改变行业的工作模式和从业者的思考方式,但在预判、决策和创造性等方面,现阶段的人工智能尚无法代替人类完成重要工作。

  在其他数据分析领域,研究人员利用深度学习提高了图像识别、语言翻译和自然语言文本分类等技术的能力,比如医疗领域已打造出改善医疗服务的人工智能引擎。对于专利标引工作乃至法律服务行业,我们预计,优化升级的语义匹配功能能够帮助系统识别和归纳关键词,更精确的图像识别技术能够实现外观专利的准确判断,人工智能在专利数据自动处理的应用前景将一步步展现出来。

  参考文献
  [1]张稀稀.浅析专利标引在专利信息服务中的作用.中国发明与专利.2019,16(10).
  [2]杨丽慧.改进中国专利文献标引——检索系统.中国发明与专利.2006(03).
  [3]石秀芹.专利文献标引与新数据库的组成要素.中国发明与专利.2006(11).
  [4]Kisliuk B. Introduction to the Cooperative Patent Classification(CPC).2013-10-10.
  [5]Mazur G. Theory of Inventive Problem Solving (TRIZ).2013-08-12.
  [6]袁力.面向TRIZ理论使用者的多标签专利分类.计算机科学.2013,40(S2).
  [7]Falasco L, Bases of the United States Patent Classification, World Patent Information, 2002, 24(1).
  [8]郭炜强.基于领域知识的专利自动分类.计算机工程.2005,34(23).



免责声明:凡本网注明"来源:XXX(非中国知识产权杂志出品)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。新闻纠错:010-52188215,邮箱:chinaip@hurrymedia.com

会员留言


只有会员才可以留言, 请注册登陆

查询及评价系统

文章检索

关键词:

在线调查

据悉,正在修订中的《专利法》四修,拟将恶意侵权专利赔偿额度从原有的最高三倍上限调整到最高五倍,五倍赔偿已经是目前世界上最高的赔偿额度,对此,你有什么看法?

没有考虑过
合理,打击侵权,确有必要
不合理,赔偿过高,国际上并无先例