当前位置：Linux教程 - Linux资讯 - 如何使用 GNU 文本实用程序

如何使用 GNU 文本实用程序

　　本教程展示如何使用 GNU 文本实用程序集合来处理日志文件、文档、结构化文本数据库，以及其他文本性的数据或内容源。本集合中的实用程序经过 UNIX/Linux 开发人员几十年的改进，已证明是有用的，并且应该是您用于一般文本处理任务的第一选择。　　　　本教程是为 Linux/UNIX 程序员和系统管理员编写的，属于初级至中级水平。　　　　学习本教程的前提条件　　　　对于本教程，您应该一般地熟悉一些类 UNIX 环境，特别是命令行 shell。您本身不需要是一个程序员：事实上，本教程所讲述的技术将对系统管理员和需要处理特殊报告、日志文件、项目文档以及类似内容的用户最有用（因此对正式的编程代码处理不是那么有用）。在学习本教程的整个过程中，最好随时打开一个 shell，并试验本教程所展示的例子以及它们的一些变化形式。　　　　基本概念将在简介：UNIX 哲学中回顾，您可以在其中复习管道、流、grep 和脚本编程的基础知识。　　　　David Mertz 对于处理文本具有持久的爱好。他甚至专门为此编写了一本书 Text Processing in Python ，并且经常在他为 IBM developerWorks 撰写的文章和专栏中谈及相关的主题。　　　　关于本教程内容的技术问题和意见，请联系 David Mertz 或者单击任一屏顶部的"反馈"。 David 的 Web 站点也是相关信息的一个很好来源。　　　　简介：UNIX哲学　　组合使用小型实用程序来完成大型任务　　　　在诸如 Linux、FreeBSD、Mac OS X、Solaris、AIX 等受 UNIX 启发的操作系统中，开发环境甚至 shell 和工作环境的背后都存在一种共同的哲学。这种哲学的要旨就是使用小型实用程序来完满地（没有其他负面影响）完成每个小型任务，然后组合使用这些实用程序来执行复合任务。GNU 项目所产生的大多数产品都支持这种哲学――实际上特定的 GNU 实现已经移植到许多平台上，有些平台甚至传统上未被看作是 UNIX 类的。然而，Linux 内核必定是更有点单一性的软件――虽然如此，但是其内核模块、文件系统、视频驱动程序等都是相当组件化的。　　　　对于本教程，您应该一般地熟悉一些类 UNIX 环境，特别是命令行 shell。您本身不需要是一个程序员：事实上，本教程所讲述的技术将对系统管理员和需要处理特殊报告、日志文件、项目文档以及类似内容的用户最有用（因此对正式的编程代码处理不是那么有用）。在学习本教程的整个过程中，最好随时打开一个 shell，并试验本教程所展示的例子以及它们的一些变化形式。。　　　　文件和流　　　　如果这种 UNIX 哲学具有倡导最低限度的模块化组件和协作的道义论的一面的话，它还具有本体论的一面："一切皆文件"。抽象地说，文件只是支持一些操作的对象：首先是读取和写入字节，但是也有诸如指出其当前位置和弄清何时到达文件结尾这样的操作。UNIX 权限模型也是围绕文件的概念来建立的。　　　　具体地说，文件可以是可记录介质上的一个具体区域（并具有由文件系统提供的关于其名称、大小、在磁盘上的位置等的标记）。但是一个文件也可以是 /dev/ 层次结构中的一个虚拟设备，或者通过 TCP/IP 或通过诸如 NFS 这样的高级协议传来远程流。重要的是，特殊文件 STDIN、STDOUT 和 STDERR 可用于读取或写到用户控制台，以及用于在实用程序之间传递数据。这些特殊文件可通过虚拟文件名称来表示，并具有特殊的语法：　　　　STDIN 是/dev/stdin 和/或 /dev/fd/0 　　STDOUT 是 /dev/stdout 和/或 /dev/fd/1 　　STDERR 是 /dev/stderr 和/或 /dev/fd/2 　　　　UNIX 的文件本体论的优点在于，这里讨论的大多数实用程序都将统一而中立地处理各种数据源，而不管实际位于字节传输之下的存储或传输机制是什么。　　　　重定向和管道　　　　UNIX/Linux 实用程序的通常组合方式是使用管道和重定向。许多实用程序或者自动地或者可选地从 STDIN 接受输入，并将它们的输出发送到 STDOUT（特殊的消息则发送到 STDERR）。管道将一个实用程序的 STDOUT 发送到另一个实用程序的 STDIN（或者发送到对同一个实用程序的新的调用）。重定向或者将一个文件的内容作为 STDIN 来读入，或者将 STDOUT 和/或 STDERR 输出发送到一个指定的文件。重定向通常用于保存数据以供以后处理或重复处理（对于后者，实用程序将使用 STDIN 重定向）。　　　　在几乎所有的 shell 中，管道都使用竖线符号来执行，而重定向都使用大于号和小于号来执行：> 和，或使用 &> 来同时将 STDOUT 和 STDERR 重定向到同一个地方。您还可以使用双大于号（>>）来将输出附加到一个现有文件的末尾。例如：　　　　　　源码:----------------------------------------------------$ foo fname bar - > myout 2> myerr　　--------------------------------------------------　　　　这里，实用程序 foo 可能处理名为 fname 的文件，并输出到 STDOUT。实用程序 bar 使用了一种普遍用法：当输出取自 STDIN 而不是取自指定的文件时指定一个短划线（其他某些实用程序仅接受 STDIN）。来自 bar 的 STDOUT 保存在 myout 中，它的 STDERR 则保存在 myerr 中。　　　　文本实用程序是什么？　　　　GNU 文本实用程序是一些用于处理和操作文本文件和流的工具集合，它们随着类 UNIX 操作系统的演进而被提炼，结果证明它们是最有用的。其中的大多数都是早期 UNIX 实现的组成部分，虽然许多已随着时间的推移而增添了附加的选项。　　　　档案文件 textutils-2.1 中收集的实用程序包括 27 个工具；然而，GNU 项目维护者最近已决定将这些工具打包为更大的集合 coreutils-5.0 的一部分（预计可能会在后面的版本中这样做）。在从 BSD 而不是从 GNU 工具演变而来的系统上，相同的实用程序的打包方式可能稍有不同，但是仍然提供了大多数相同的实用程序。　　　　本教程重点介绍传统上包括在 textutils 中的 27 个实用程序，偶尔会提及和使用一般在类 UNIX 系统上可用的相关工具。然而，我将跳过对实用程序 ptx（permuted index，置换索引）的介绍，因为它的用途太窄，并且包括在这里也太难于理解。　　　　grep（通用正则表达式处理器）　　　　这个工具本身并不是 textutils 的组成部分，但是仍然值得特别提及。实用程序 grep 是使用最广泛的 UNIX 实用程序之一，经常用于文本实用程序的管道输入或输出。　　　　grep 所做的工作从一种意义上说非常简单，从另一种意义上说又相当复杂，难于理解。基本上，grep 识别文件中与某个正则表达式相匹配的行。它有一些开关允许您以各种方式修改输出，比如打印周围的上下文行，给匹配行编号，或者仅识别其中出现匹配项的文件而不是识别单独的行。本质上，grep 只是用于文件中的行的过滤器（但是功能非常强大）。　　　　grep 的复杂部分是正则表达式，您可以指定它来描述需要的匹配条件。不过这将在另一个教程（请参阅参考资料中的 developerWorks 教程"Using regular eXPressions"）中讲述。还有其他许多实用程序支持正则表达式，但是 grep 是其中最通用的一个工具，因而比起使用其他工具所提供的较弱的过滤器，将 grep 放进管道中通常更容易。一个简单的 grep 例子如下：　　　　源码:--------------------------------------------------　　　　　$ grep -c [Ss]ystem$ * 2> /dev/null grep :[^0]$　　　　　　　INSTALL:1　　　　　　　aclocal.m4:2　　　　　　　config.log:1　　　　　　　configure:1------------------------------------　　　　这个例子列出包含以"system"结尾的行（或许首字母是大写的）的文件；同时显示这些实例出现的次数（也就是如果不为 0 的话）。（实际上，这个例子不会处理大于 9 的计数）。　　　　shell 脚本　　　　虽然文本实用程序旨在以各种有用的格式产生输出（通常通过命令行开关来修改），但是有些时候能够显式地跳转和循环是很有用的。诸如 bash 这样的 shell 允许您通过控制流来组合实用程序，从而执行更复杂的任务。shell 脚本对于封装需要多次执行的复合任务特别有用，特别是那些涉及任务参数化的任务。　　　　　　解释 bash 脚本编程显然超出了本教程的范围。请参阅参考资料以了解 developerWorks 的"Bash by example"系列中对 bash 的介绍。一旦理解了这些实用程序，将它们组合到已保存的 shell 脚本中是相当简单的。只是出于演示目的，下面提供一个使用 bash 进行流控制的简单例子：　　　　源码:----------------------------------------------------　　　　　　 [~/bacchus/articles/scratch/tu]$ cat flow　　　　　　　#!/bin/bash　　　　　　　for fname in `ls $1`; do　　　　　　　　if (grep $2 $fname > /dev/null); then　　　　　　　　　echo "Creating: $fname.new" ;　　　　　　　　　tr "abc" "ABC" < $fname > $fname.new　　　　　　　　fi　　　　　　　done　　　　　　　[~/bacchus/articles/scratch/tu]$ ./flow '*' bash　　　　　　　Creating: flow.new　　　　　　　Creating: test1.new　　　　　　　[~/bacchus/articles/scratch/tu]$ cat flow.new　　　　　　　#!/Bin/BAsh　　　　　　　for fnAme in `ls $1`; do　　　　　　　　if (grep $2 $fnAme > /dev/null); then　　　　　　　　　eCho "CreAting: $fnAme.new" ;　　　　　　　　　tr "ABC" "ABC" < $fnAme > $fnAme.new　　　　　　　　fi　　　　　　　done　　面向流的过滤　　cat 和 tac　　　　最简单的文本实用程序只是
[1] [2] 下一页

（出处：http://www.sheup.com）

上一页 [1] [2]

站点导航

赞助商链接