中英混杂术语文件转换成excel术语表

[复制链接]
查看: 2653|回复: 26| 发表于 2015-10-27 14:38:52 | 显示全部楼层 |阅读模式|

术语统一在翻译中有着重要意义,网络上有很多术语供我们下载使用,但下载来的术语却有许多排版格式的问题,今天给大家一个写了一个简单的教程,通过word提供的正则表达式功能,实现中英混杂术语的分离处理,转换成excel的一一对照形式。

实现原理:

文本复制到excel表中时,如果文本内容由tab分割,那么excel会自动分单元格。所以我们以下面的这段混乱的为例,要转换成excel的一一对照形式,主要通过正则表达式来实现。

第一步:将混乱的排版转成一一对照形式(如果已经是一一对照形式就跳过吧)

第二步:将分割符号转换成制表符tab

第三步:复制,粘贴就ok啦。

image001.png

看到这么混乱的术语是不是头都大了呢??好了我们现在开始一步一步将混乱的排版转成excel一一对照形式

分析:这是一篇英中对照版本的术语,因此我们需要在中文后面空格并将其转换为换行符号。我们要找到的形式为:中文+空格+英文,并替换为中文+换行符+英文,中文可以理解为非英文字符,那么可以用[!^1-^127]来表示,

所以:中文+空格+英文的正则可以写为:([!^1-^127]) ([a-zA-Z])

括号之间有个空格

替换的内容可以表示为:\1^13\2

Ps:这里的括号是分组用的,\1表示第一个括号匹配的内容,\2表示第二个括号的内容,以此类推。^13表示的是回车符号

如下(一定要勾选使用通配符):

QQ图片20151027161910.jpg

点击全部替换,替换结果如下:

image004.png

现在发现有很多空行,都是软回车,我们可以用正则删除软回车。在正则中^l表示软回车,所以我们直接用^l直接替换为空即可(在替换为输入框中不输入任何内容)。


image005.png

替换后效果如下:

image006.png

经查,还有部分没有分割开,因为英文和中文之间没有空格所以我们需要改造一下第一个正则表达式将查找的内容修改为:([!^1-^127])([a-zA-Z]),如下图

image007.png

再点批量替换,这项就ok了,标准的一一对照,如下:

image008.png

现在进行第二步,将英中之间的分割符号转换成tab也就是制表符;

现在我们需要实现的是将:英文+空格+中文,替换为英文+tab+中文

我们可以这样来写查找的内容:([a-zA-Z]) ([!^1-^127]),很简单就是将上面的2个括号互换了下位置。


替换就更简单了,在正则中tab的表示方法是^t,所以我们替换的内容即为:\1^t\2

image009.png

考虑到有些英文与中文之间没有空格,所以我们删除2个括号之间的空格,再替换一次,替换结果如下:

image010.png

Ok了,最后一步复制粘贴了,新建一个excel表单,粘贴进去即可,如下:

image011.png

现在可以方便的导入到译马网或者Transmate中当语料使用了,了解更多正则可以点击替换窗口上的小问号查看。

image013.png

PS:终极技能。如果很多文件需要处理,可以将以上操作录制成宏,然后你懂得


发表于 2015-10-27 14:50:11 | 显示全部楼层
本帖最后由 transyan 于 2015-10-27 15:07 编辑

非常感谢,辛苦了!PS: LZ好厉害!
发表于 2015-10-28 09:37:11 | 显示全部楼层
很实用。楼主讲解的很细啊 !!!
发表于 2015-11-21 16:41:13 | 显示全部楼层
膜拜啊,楼主高人!!!
发表于 2015-12-25 00:47:26 | 显示全部楼层
好厉害,正好需要这个!!
发表于 2016-1-6 00:28:27 | 显示全部楼层
深度技术贴啊
发表于 2016-1-21 13:52:23 | 显示全部楼层
群主好厉害,棒棒
发表于 2016-1-25 20:56:34 | 显示全部楼层
楼主讲得有条有理,思路清晰,受教了!!!
发表于 2016-4-14 20:45:09 | 显示全部楼层
金币不够,怎么才能够呢
发表于 2016-5-6 08:47:35 | 显示全部楼层
我下载的术语怎么也弄不好,求各位大神指教!!!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

译马网 优译信息 关于我们 archiver
Copyright ©2014 蜀ICP备11013193号
快速回复 返回顶部 返回列表