嘉权视角|基于NLP技术的专利翻译方法——数据预处理篇_翻译_理顺_专利

专利翻译技术虽说不上日新月异,但也算得上持续进步。在笔者从业知识产权的十年间,使用得最多的方法为人工翻译和CAT(计算机辅助翻译)辅助翻译,其中人工翻译是指主要依赖人工进行语言组织,可能辅以在线资料、词典和翻译工具作为参考的翻译方式;CAT辅助翻译是指借助Trados、Ai-trans等主流效率软件进行已翻译语句的记忆再现的半自动翻译方式。

近年来,得益于深度学习在自然语言处理(NLP)领域的发展,由各种在线翻译工具得出的翻译结果的可参考度越来越高,但也仅能参考而已。其部分翻译结果,特别是在专利文献中的长句、多定语限定的句子的翻译,其逻辑准确度随着句子复杂程度的上升而直线下降。大部分译员发现,在线翻译工具只能作为参考,无法直接用于翻译,甚至无法基于在线翻译进行校对。由此,即使基于深度学习NLP技术的在线翻译,一直未能成为第三主流翻译方法。

然而,经笔者研究发现,在线翻译的质量,除了受该在线翻译背后的NLP引擎处理能力的影响,还较大地受原文质量的影响。在进行合适的数据预处理后,在线翻译的质量明显要更好。本文将通过若干实例,为此探究结合数据预处理的基于NLP技术的专利翻译方法,并进一步探究基于深度学习或其他机器学习类型的NLP技术在未来成为另一主流翻译方法之一的可行性。

以下将根据专利翻译的一般处理过程,结合数据预处理来讲解基于NLP技术的专利翻译方法的步骤:

1、不用考虑翻译方法,先快速阅读一遍全文

如果你发现一篇待翻译的原文中没有笔误、不通顺、不清楚、不简明、术语不统一、逻辑错乱等影响翻译准确度的问题,那一定是因为你阅读了全文后,才得出的这样的结论。

不论随后使用何种翻译方法,均建议先阅读全文,这里花费大约15-30分钟的时间成本,可换取对背景技术、各个实施例、各个权利要求的整体和基本的认识,以及可用于评估随后数据预处理的工作量。

2、采用译文的表达思维对说明书内容进行理顺

相对于边译边理顺,先对说明书内容进行理顺能为日后(有时真能花上1-2天)带来何种获益呢?笔者认为,可包括但不限于以下益处:

01

留下修订文件:在阅读和理解过程中,针对上述的可能影响翻译准确度的问题,可进行全文的调整和修订,从而留下珍贵的可追溯的修订文件,不但可用于本文下面提到的翻译步骤,还可作为调整理顺的客观依据反馈至客户或校对人员,以及可作为日后撰写优化培训的素材;

02

减少反悔成本:对于生僻和复杂的技术方案,如果采用边译边理顺的方法,译员对原文的理解是碎片化、局部化的,往往看到下文才发现对上文的理解有误,或才发现有更合适的术语,这样必须对已译内容进行重译,产生反悔成本;

03

展开全文

提高翻译质量和效率:在对全文进行综合理解和理顺后,翻译时的上下文逻辑连贯性会更好,术语的选用会更贴近原含义且更统一,思维和记忆会更顺畅,最终使得翻译质量和效率会更高。

实际上,也不必过于担心时间成本,因为专利文件不同于小说,即使篇幅很长的专利文件,其“核心剧情”一般为独立权利要求1,其他的“故事内容”均围绕该“核心剧情”展开。

一些以中文思维看来没有问题的表达,转换成英文后,将产生不同程度的不清楚、不通顺、不简明等问题,因此需以英文角度来理顺。而一些严重的不通顺、不清楚、逻辑错乱的问题,不论用何种语言的思维,往往都是有问题的。具体理顺的技巧包括但不限于:

01

术语和表达的替换:

例01:为了更清楚、更简明

理顺前:…, in particular to a pot cover and a cooker thereof.

理顺后:…, in particular to a pot cover and a cooker.

理顺前:The slot can be inserted into any position on the edge of the pot mouth of the pot body.

理顺后:The slot can be inserted into any position of the edge of the opening of the pot body.

理顺前:The pot wall of the pot body…

理顺后:The wall of the pot body…

例02:为了术语和表达一致性

例03:为了符合译文的专利语言表达习惯

02

逻辑关系的调整

有些调整是根据本领域常识,有些则是根据上下文。大部分的调整均是为了使得逻辑的表达以英文思维看来更清楚简明。

例04:

理顺前:…, the file in the drive letter is synchronized with the file in the corresponding disk.

理顺后:…, so as to realize a synchronous operation between the file in the drive letter and the file in the corresponding disk.

**注,由于NLP引擎内的容错和纠正功能,当它认为原文存在阻碍通顺表达的内容时,可能会忽略那些阻碍理解的内容;或当它识别出一些惯用通俗而非标准的表达时,将可能对这些表达进行调整。例如此句中,在理顺前直接翻译,NLP引擎忽略了单独的“实现”和“操作”,而将“实现”和“同步”融合为“与…同步”并选用了被动表达。或许在未来,即使我们不再进行数据预处理,基于AI的NLP引擎也能推导出准确的译文。

例05:

例06:

理顺前:Filter the invisible files or directories when the enumeration results are returned, and only return the filtered results to the file system driver.

理顺后:When enumerating the returned file operation results, the screened and hidden files or directories are filtered, and only the filtered results are returned to the file system driver.

例07:

理顺前:The established drive letter refers to the drive letter created by the currently logged-in user in 1004 and corresponding to the cloud terminal.

理顺后:The designated drive letter refers to the drive letter of the disk created by the currently logged-in user in step 1004 and corresponding to the cloud terminal.

在下一篇文章中,笔者将详细介绍,如何使用已预处理的数据,进行基于NLP技术的实时AI翻译与数据后处理,可简要概括为以下流程:

S1:原文全文理解和预修订;

S2:AI辅助翻译;

(1) AI预翻译>原文实时优化>AI再翻译>译后微调;

(2) 实时优化包括添加单复数标注和调整语序组织等;

(3) 先译权利要求以确定核心词汇和表达,后翻译说明书;

S3:后处理;

(1)术语替换;

(2)检查多译漏译。

本文仅基于笔者经验的翻译技巧分享,并非决定性的翻译原则或准则,欢迎读者们参考使用。

国际代理部

林伟峰

林伟峰

国际部经理

林伟峰先生加入嘉权后,一直专注并擅长于计算机软硬件、传感器、微电子、光电技术等领域的专利申请,主要负责涉外专利申请代理、撰写、翻译及审查意见答复等工作,并为客户提供咨询检索服务。

2017、2018均代表嘉权参加INTA(国际商标协会)年会相关活动。

2018年赴美国Vivacqua Law事务所参加长达三个月的专利实务培训,主要包括美国专利申请理论、美国专利申请实务、美国专利诉讼旁听课、美国专利商标局专项课程,囊括了专利申请文件撰写、权利要求书撰写、专利答辩策略等内容。尤其是考虑到中国专利进入美国市场的各种“水土不服”,专门学习“中国专利进入美国的适应性修改”课程。

后负责嘉权涉外代理人有关美国专利方面的培训工作,主要包括美国专利实务中的检索、撰写、翻译、答辩、侵权分析、维权讼诉等,同时还负责传授商务礼仪、口头交流、书面沟通等方面知识,进一步扩展涉外代理人在国内获得的基础知识和基础经验。

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文