嘉权视角|基于NLP技术的专利翻译方法——AI实时翻译和后处理篇_翻译_译文_预处理

无论采用何种翻译工具和方法,对原文的理解和理顺均是十分重要的。在未来的AI翻译的趋势下,这两步可认为是对数据的预处理。在笔者的上一“数据预处理”的文章中已作详细介绍。在本文中,笔者将详细介绍,如何使用已预处理的数据,进行基于NLP技术的实时AI翻译与数据后处理。

1、根据已理顺的说明书,采用译文的表达思维精确确定权利要求书的内容和保护范围

权利要求书为专利申请文件中最核心和最关键的部分,同时也是较为抽象、缺乏上下文解释的部分,在理解权利要求书之前,强烈建议应先对说明书进行透彻的理解和理顺,否则很容易对术语的选用、定语的限定对象、逻辑关系等发生误判。一旦对权利要求的理解存在偏差,在翻译时,这样的偏差会被放大,从而带来将来法律上的难以预计的负面效果。

例01

理顺前:Sending the operation instruction and operation content to a cloud terminal, so that files in a disk corresponding to the operation request of the cloud terminal execute the operation instruction and the operation content;

展开全文

理顺后:sending the operation instruction and operation content to a cloud terminal, to allow the operation instruction and operation content being executed on a file in a disk of the cloud terminal, wherein the disk corresponds to the operation request;

2、从权利要求书开始,进行实时AI翻译

有些CAT软件可以嵌入NLP引擎的API,例如在Trados中嵌入搜狗翻译的API,从而可利用搜狗的NLP引擎进行全文的预翻译。

然而,即使在完成上述步骤1-3后,仍无法保证:字面语义 = 实际语义 = NLP引擎理解的语义 —> 准确译文,且专利翻译是商业行为,不可能无时间限制地将原文调整至尽善尽美再开始翻译。在步骤1-3中,我们仅凭经验在有限时间内将那些大概率地可能导致NLP引擎理解的内容进行纠正,例如笔误、不通顺、不清楚、不简明、术语不统一、逻辑错乱等。另外,这些人为经验并不一定与基于深度学习等训练模式得出的NLP引擎的经验一致。

因此,经数据预处理的全文预翻译的译文的参考价值肯定会比未预处理的要好,但NLP引擎在一些未处理或即使已处理的细节地方可能仍存在理解偏差。最终,译员还是要花费较多时间对预翻译出的译文进行调整,这样的翻译方法仍属于CAT翻译。

本文提出的基于NLP技术的翻译方法,在数据预处理后,将从最核心的权利要求书开始,例如以权项和自然段为单位,进行实时AI翻译,以确定“核心基准译文”。由于说明书的主要内容为实施例部分,其包括对应各个权利要求的相关实施例以及这些实施例的变体,只要先确定“核心基准译文”,就能为其他内容的翻译提供依据和参照。笔者在另一篇文章“基于核心记忆库的专利翻译策略”中有更详细的介绍。

与基于NLP技术的翻译相比,CAT仍具有一些优势。但针对专利文件的特点和作为译员本身应具备的素养:集中力和记忆力,应可以填补以下CAT的差异化优势:

1)CAT的以句子为单位的自动记忆再现:专利文件中的重复内容一般很明显,例如分段显示,只要先确定核心译文,以此作为核心记忆,译员后续靠目测应也应能识别出重复内容并进行参考翻译。另外,CAT以句子为单位进行翻译,对于一些存于记忆库的相似度很高的整段的套话,处理并不高效,仍需一句句地再现和粘贴。而基于NLP技术,可利用大数据训练,将高频出现的套话的翻译直接整段译出。

2)CAT的自动术语再现:如下文所述,NLP能分析语境,只要原文通顺,对于同一中文,出现不同的英文变体的数量一般为2-3个,通过轻量级的数据后处理可解决。

在实时AI翻译中,同样地也需要在原文区作实时的调整,与数据预处理的区别在于,仅在输出的译文未达理想水平时才需要调整,包括但不限于:

a. 添加数据标记,如单复数、定/不定冠词;

b. 术语一致性,操作、动作、如开口边缘、开口的边缘等;

c. 调整语序;

d. 增补过渡词和连接词,例如增加“的”、“且”、“从而”、“其中”;

e. 调整标点符号,例如一语义单元结束后应改为句号,排比分句应改为分号等;

f. 适当断句,以避免歧义和限定不清。

请注意,一些额外的工作量,可为日后带来收益,例如:

1)在实时调整时,若发现该调整具有批量意义,可返回至原文文件进行全文替换修改;

2)当以段为单位,将原文放入AI翻译的编辑区,待该段译文确定后,可将调整好的原文保存至另一文件中,以便后续通过与预处理的原文比较来生成修改对照页,用于日后的学习或反馈。其中,不直接替换预处理的原文的原因是,预处理时可能添加了有益的注释批注。

例02

理顺前:Cloud desktop 110 receives an operation request for a file in a drive letter.

理顺后:The cloud desktop 110 receives an operation request for a file in a drive letter.

例03

理顺前:Operation content refers to the file content targeted by the operation instruction, including text information, picture information, audio information and so on.

理顺后:Operation content refers to one or more files targeted by an operation instruction, wherein the content of a file includes text information, picture information and/or audio information, etc.

**注:

由于在中文撰写时,名词术语前可能无需冠词和量词,NLP引擎只能依据每一个以句号结束的句子内的语义来判断定/不定冠词,为辅助NLP引擎的准确判断,可人为地在一些关键的特征处加上定/不定冠词。请留意,大部分情况下,如果一个可数名词能够以复数的形式来描述,其往往也可以单数(不定冠词)的形式描述,且以不定冠词描述时更清楚。如,班里的同学分到了苹果(The students in the class were assigned apples),班里的每位同学分别分到一苹果(Each student in the class is given an apple.)。

以上例子中,NLP引擎会根据语义自主判定量/定/不定冠词,前面的定语成分越多,判定为不定冠词的倾向性越大。

3、译文数据后处理

译文交付的基本要求是:原文含义 = 译文含义 (更高级的为作者意图 = 翻译 + 修改)。因此,在交付翻译文件之前,译员应进行一定的数据后处理。

NLP引擎在翻译时,同样需要查字典。一个中文术语往往对应多个英文单词,即使经领域细分后,仍可能最终存在数个表面上看来同义但适用语境并不相同的单词。因此,NLP选用的术语和表达并不一定是针对该技术方案的最合适的术语和表达。另外,由于NLP引擎以句号来区分语义单元,在同一文件内同一中文术语或表达,可能会被NLP根据语境译为不同的英文,但一般不会超过两三个变体,在实时AI翻译中当出现变体时,可在译文文件中先作颜色标记,待数据后处理一并批量替换(请留意先替换带a/an冠词的,再替换带the冠词的)。

由于采用了NLP技术,这样的数据后处理一般为批量替换这样的轻量级工作。

例04

开槽:将 slot 替换为 groove,因为slot指的是通槽,本技术方案的槽是为未打通的;

开槽插接于边缘:将inserted into替换为inserted at或engaged with,因为实际是边缘插接于开槽中。

执行后的文件操作结果:将executed file operation result替换为file operation result after execution,因为executed file operation result与后面出现的file operation result不一致,且带来不清楚问题:已经是result了,如何再进行execute?

本文仅基于笔者经验的翻译技巧分享,并非决定性的翻译原则或准则,欢迎读者们参考使用。

国际代理部

林伟峰

林伟峰

国际部经理

林伟峰先生加入嘉权后,一直专注并擅长于计算机软硬件、传感器、微电子、光电技术等领域的专利申请,主要负责涉外专利申请代理、撰写、翻译及审查意见答复等工作,并为客户提供咨询检索服务。

2017、2018均代表嘉权参加INTA(国际商标协会)年会相关活动。

2018年赴美国Vivacqua Law事务所参加长达三个月的专利实务培训,主要包括美国专利申请理论、美国专利申请实务、美国专利诉讼旁听课、美国专利商标局专项课程,囊括了专利申请文件撰写、权利要求书撰写、专利答辩策略等内容。尤其是考虑到中国专利进入美国市场的各种“水土不服”,专门学习“中国专利进入美国的适应性修改”课程。

后负责嘉权涉外代理人有关美国专利方面的培训工作,主要包括美国专利实务中的检索、撰写、翻译、答辩、侵权分析、维权讼诉等,同时还负责传授商务礼仪、口头交流、书面沟通等方面知识,进一步扩展涉外代理人在国内获得的基础知识和基础经验。

近期好文推荐

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文