Date Wrangling(数据整理)
1. Introduction(介绍)
所谓的数据整理,就是假如有一种数据,你想将它转换成另一种格式的数据
这种事情非常常见
正则表达式
正则表达式是一种用来匹配字符串的模式
在数据整理中,正则表达式可以用来提取、替换、删除、或者验证日期字符串
如何使用正则表达式
- 首先,你需要了解正则表达式的语法
- 然后,你需要了解一些常用的正则表达式模式
- 最后,你需要熟练掌握一些正则表达式的操作符
元字符
字符 | 说明 | 示例 |
---|---|---|
. |
匹配任意单个字符 | a.c → abc |
\d |
数字字符(等价[0-9]) | \d\d → 42 |
\w |
单词字符(字母/数字/_) | \w\w → A1 |
\s |
空白字符(空格/tab/换行) | a\sb → a b |
\D |
非数字字符 | \D → a |
\W |
非单词字符 | \W → @ |
\S |
非空白字符 | \S → X |
字符组
|
|
量词
|
|
锚点
|
|
分组与捕获
|
|
反向引用
|
|
sed 命令
sed 命令是一种流编辑器,它可以对文本进行替换、删除、搜索和替换等操作
sed 命令语法
|
|
常用选项
-n
:静默模式,只打印匹配到的行,不打印未匹配到的行-e
:添加命令-f
:添加命令文件-i
:直接修改文件内容
常用命令
s/old/new/g
:替换命令,将 old 替换为 new,g 表示全局替换d
:删除命令,删除匹配到的行p
:打印命令,打印匹配到的行w
:写入命令,将匹配到的行写入文件q
:退出命令,退出 sed 编辑器
示例
|
|
sed 配合正则表达式使用效果更佳哦
sort 指令
sort 指令可以对文本进行排序
sort 指令语法
|
|
常用选项
-n
:按数字排序-r
:反向排序-u
:删除重复行-t
:指定分隔符
示例
|
|
awk 命令
awk 可介绍的太多了,这里只介绍一些常用的用法
awk 命令语法
|
|
常用选项
-F
:指定分隔符-v
:定义变量
常用命令
print
:打印命令,打印指定字段length
:计算字段长度toupper
:转换为大写tolower
:转换为小写match
:匹配模式split
:分割字符串sub
:替换命令
示例
|
|
分析数据
想做数学计算也是可以的!例如这样,您可以将每行的数字加起来:
|
|