技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例_采集_语料_点击

1、语料辅助查询和收集的概念

译者进行翻译时离不开语料的处理和应用。

语料查询:除了词典,语料库(corpus)对于译员也是一大辅助。通过高效准确地查询语料,译者可以核实查证单词/短语的译法。

语料收集:语料收集(data collection)是2011年公布的语言学名词。从语言形式上分为书面语料和口语语料,从搜集方式上分为摘引文献、语言调查以及参考辞书等,从搜集手段上分为人工搜集和借助电子技术搜集。

2、进行语料辅助查询和收集的好处

(1) 客观性

进行语料辅助查询和收集可以更好地掌握语言发展规律。进入计算机时代,人们可以借助语料对语言进行更大规模的抽样,这样计算出的频率准确性会更高。

(2) 科学性

进行语料辅助查询和收集可以使语言更具科学性。

语料辅助查询和收集帮助我们快速高效地搜索需要的信息。面对形形色色的工具,我们不需要贪多,要选择适合自己的工具并熟练运用,形成自己的一套语料处理体系,无论是对日常学习工作,还是对学术研究,都有重要的意义。

1、自动化数据采集简介

依靠大数据技术和信息技术手段对海量数据进行自动化的采集和整理工作,以供后续的分析和使用,可以提高数据采集的效率、精准度、和完整性。

(1)用途

在翻译领域,可用于采集术语,采集译者招聘信息,采集文本/平行文本建成语料库等。在其他领域可以用于如采集购物评价,了解用户需求,预测股票走势,优化网站平台。

展开全文

(2)数据源

开放数据源:政府、高校、企业

爬虫抓取:网页、app

日志采集:前端采集、后端脚本

传感器:图像、测速、热敏

(3)采集方法

1)使用Python编写爬虫代码(对没有编程基础的同学来说较为困难)

使用 Requests 爬取内容。

使用 XPath 解析内容。

使用 Pandas 保存数据。

2)使用常用采集工具,如八爪鱼采集器、火车采集器、神箭手采集器等。

2、常用采集工具对比

(1)八爪鱼采集器

价格:中等

功能:功能齐全,且其免费版功能齐全

界面:简洁

上手难易:简单

流程是否可视化:是

特点:

①无需编写代码,软件自动采集主要内容,非常简单。

②免费数据采集模板。

③无需登录即可使用。

注意事项:

①循环都是xpath元素定位,很容易在翻页采集时出现错误。

②采集数据速度有时较慢。

(2)火车采集器

价格:略高

功能:功能强大且复杂,包含数据处理、分析、挖掘等功能,但是免费版功能局限较大

界面:简洁、朴素

上手难易:较难

流程是否可视化:是

特点:

①分布式采集,采集效率高。

②功能十分强大,覆盖数据分析处理等功能。

注意事项:

①适合有一定编程基础的人使用。

②功能多,比较占用内存和CPU。

(3)集搜客采集器

价格:相对较低

功能:功能较为齐全

界面:简洁、朴素

上手难易:简单

流程是否可视化:是

特点:

①可以抓取手机网站数据。

②有分词情感词标注功能,以及构建词云功能。

注意事项:

①没有云采集功能。

②免费版中快捷采集导出需要应积分下载数据。

(4)后裔采集器

价格:中等

功能:功能强大,且其免费版功能齐全

界面:简洁

上手难易:简单

流程是否可视化:是

特点:

①无需编写代码,比较简单。

②直接接入代理IP和自动登录验证码识别。

注意事项:

①有时无法完全抓取需要展开的内容。

②没有云采集功能。

3、八爪鱼

(1)工具简介

整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据采集工具,已连续5年蝉联互联网数据采集软件榜单第一名,截止2021年全球用户已突破300万。提供解决方案如下图:

免费版:内容采集规则,包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以采集。

付费版:云采集,配置好采集任务,交给八爪鱼的云端进行采集。

(2)工具下载

进入官网即可下载使用免费版,无需注册。

(3)采集分类

1)使用模板采集(主要为跨境电商与新闻,暂无与翻译相关度较高的模板)

2)自定义数据采集

表格采集

列表数据采集

列表+详情页采集

翻页采集

(4)实际操作

1)中华文化思想文化术语库:术语列表+详情页采集

文字操作流程:

步骤一、开始采集

在首页【输入框】中输入目标网址,点击【开始采集】。

步骤二、建立【循环-点击元素-提取数据】

1、先建立一个【循环-提取数据】步骤。可以通过自动识别功能生成字段,如下图:

也可以手动选择。选中页面上的列表,选中后会被绿色框框起来,同时出现黄色操作提示框,点击【选中全部】,之后按需要选择相应字段。或者选择所有相关字段后,选择【选中全部】—【采集数据】。

2、然后在循环的当前项中找到链接并选中,在弹出的操作提示框中,选择【点击该链接】。可以看到流程中生成了1个【点击元素】步骤,八爪鱼自动跳转到了详情页,然后提取详情页数据即可。

步骤三、编辑字段

八爪鱼自动为我们提取了列表中的所有字段,我们可以对这些字段进行删除、修改字段名称等操作。在字段名称处双击即可修改字段名;在右侧更多操作里面可以对字段进行删除、复制、格式化等操作。

步骤四、启动采集

1、修改完字段名后,整个规则编辑完成,点击【保存】,然后【采集】,再点击【启动本地采集】启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集)

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导 出为Excel。

视频版:

2) 术语在线:术语表格+翻页采集

文字操作流程

步骤一、开始采集。在首页【输入框】中输入目标网址,点击【开始采集】。

步骤二、建立一个【循环-提取数据】步骤。

1、可以采用自动识别功能,如下:

会提供多种字段选择,如果识别的字段不是我们倾向的,可以切换:

若手动选择,先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【扩大选区】 按钮,选中至一整行。( 扩大的作用是,扩大选中的范围。当前选中的是一个单元格,选中的范围就扩大一个层级,即选中了一行)。

在提示框中,选择【选中子元素】。这时八爪鱼又自动识别到页面中其他列表具有相同的【子元素】之后在提示框中,选择【选中全部】。

步骤三、建立【翻页循环】

在【黄色操作提示框】中点击【设置翻页采集】。然后占到并点击【下一页】按钮即可完成设置。

或者找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】。

特别说明:如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的。

若使用自动识别功能,可以自动进行翻页采集,如下图:

步骤四、启动采集,同中华思想文化术语库。

视频版:

(5)优点

1) 与Python编写爬虫代码相比,操作简单,门槛低,完全可视化,对于翻译专业的学生来说非常友好。

2) 不管是文字图片,还是贴吧论坛,支持所有业务渠道的爬虫,满足各种采集需求。

3) 支持多格式导出,包括Excel, CSV, HTML,JSON, 同时支持导出到数据库。

4) 即使是免费版,功能相比其他采集器功能也强大很多,提供免费识别,无限度采集等。

5) 自动识别功能可以帮助简化流程,快速提取数据。

(6)缺点

1)自动识别,数据采集会出现速度较慢情况,在中华思想文化术语库的采集中一分钟大约只能采集10条数据。

2)在翻页采集过程中可能会遇到一些问题。比如在配置完采集流程初次进行翻页采集时,得到的采集结果可能存在大量重复,这是因为Xpath定位不好,只是循环提取前两页数据,而不会转到第三页及以后。

3)在需要登录才能采集的页面中,即使切换至浏览器模式,也可能出现无法点击登录的现象。

参考资料:《翻译搜索指南》之系列配套视频(Ethan_LSJ):

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -

原创作者:张淑琦 陈歆言 杜菁菁 冯文轶

内容完善及编辑:刘婉怡

审核:曹达钦 肖志清 李林 祝蕙兰

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文