shell字符串截取之cut
cut命令是shell下一个比较强大的工具,它是以每一行为一个处理对象的,可以对一行字符串进行多种模式匹配的剪切操作,也可以对一个排列整齐的文本进行操作,下面我们就来说说cut这个命令吧:
特克斯网站建设公司成都创新互联公司,特克斯网站设计制作,有大型网站制作公司丰富经验。已为特克斯千余家提供企业网站建设服务。企业网站搭建\外贸营销网站建设要多少钱,请找那个售后服务好的特克斯做网站的公司定做!
cut命令主要有3个定位方法:
(1)对字节的定位,用 -b 选项
(2)对字符的定位,用 -c 选项
( 3 ) 域,用选型 -f
下面我们来看看具体的实现:
我们来一一说一下上面的现象:
我们先用pwd命令看一下我们的当前的路径。然后我们想提取当前路径这个字符串的第4个字节,就用上图所示的这条命令:
pwd | cut -b 4
我们可以看到,上图执行这个命令之后,输出了第四个字节m;
所以我们这里看明白了,如果我们要提取哪一个字节,直接在-b 选项后面加上相应的数字就可以了。
如果我们想直接提取第3,4,5,8个字节呢?我们就可以用上图的第二条命令:
pwd | cut -b 3-5,8
执行这条命令后,我们可以看到,上图中输出了omex分别对应第3,4,5,8字节。
注意:cut命令如果使用了-b选项,那么我们在执行命令时,cut会先把-b所有的定位进行从小到大的排序,然后再提取。比如上图最后的那两条命令,我们把命令里面的 “3-5,8”换成了“8,3-5”,输出的结果是一样的。
我们再来看看:
从上图我们可以看到,-3 和 3- 是有区别的。-3表示从第一个字节到第三个字节,而 3- 表示从第三个字节以后的所有这行的内容。
下面我们在来看看下面这两个命令选项的区别:
我们目前从上图看到,这两条命令里面的“-b”“-c”选项不一样,但它们的结果一样,那么我们再来看看下面,就知道他们的不同在哪里了:
在前面的图中我们可以看到,当我们要截取的都是单字节字符时,使用 -b 和 -c 就没有什么区别,但当我们提取中文的时候呢?比如上面的那幅图,我们写了个file.c文件,里面有3行汉字,我们再分别使用上面的两条命令的时候,我们就可以看到区别了:当我们用“-c”选项时,以字符为单位,输出是正常的,但“-b”是以字节为单位的,所以输出就是乱码了。所以这两条命令还是有区别的。
下面我们来说说“域”这个概念:
为什么会有“域”的提取呢?因为我们上面提到的-b和-c只能在固定格式的文档中提取信息,而对于非固定格式的信息则束手无策了,这时候,域就派上用场了。
我们知道,在某些文件中会有好多冒号,冒号在文件的每一行中都起到了非常重要的作用,冒号用来隔开每一个项。而我们cut命令就提供了这样的提取方式,也就是设置“间隔符”,再设置提取第几个域就行了,我们具体来看看下面的实验吧:
我们在终端执行如下命令,可以获得当前bash的默认路径:
我们从上图可以看到,其中的每一个路径都被一个“:”分隔开来,假如我们现在想获取第一个冒号和第二个冒号之间的路径,我们就可以很方便的使用cut命令来帮我们实现,我们在终端输入如下的命令:
从上图的结果我们可以看到,我们提取出来了我们想要的第二个域的路径。我们来解释下上面的命令:-d和‘:’一起把管道输入的一行字符串进行了域的分隔,每一个分隔符(:)和前面的字符串被称为一个域。-f选项后面跟的是我们想提取的那个域。所以该命令cut -d ‘:’-f 2就表示输出第二个分隔符之前的域。
如果我们执行下面的命令:
输入上面两条很相近的命令,我想大家可以很清晰的看到它们的区别,第一条输出的是第二个域和第四个域,而第二条命令输出的是第二到四个域(正如我们在图中用不同颜色标注的那样)。
我们在来看看cut格式化整齐的文本进行的操作:
从上面我们可以看到,这时格式化比较整齐的文本的一部分,那么我们想把前面的declare -x去掉,我们该怎么做呢?其实做法我们上面都说过:
其中的“12-”表示输出从第12个字符以后的所有字符。其实和我们上面所说的对字符串的操作没有什么区别。
上面就是自己目前所知道的cut命令的基本用法。
网站栏目:shell字符串截取之cut
文章源于:http://pwwzsj.com/article/gicssc.html