Linux如何动态添加新的系统调用

Stella981
• 阅读 737

来自 《Linux动态为内核添加新的系统调用》

先来个满满的回忆:
https://blog.csdn.net/dog250/article/details/6446192
2011年写这篇文章的时候,我的女儿小小还没有出生。

评价一下这篇文章,总体写得还不错,但排版不行。时间如白驹过隙,快十年过去了,今天我来旧事重提。


添加新的系统调用 ,这是一个老掉牙的话题。前段时间折腾Rootkit的时候,我有意避开涉及HOOK劫持系统调用的话题,我主要是想来点新鲜的东西,毕竟关于劫持系统调用这种话题,网上的资料可谓汗牛充栋。

本文的主题依然不是劫持系统调用,而是添加系统调用,并且是动态添加系统调用,即在不重新编译内核的前提下添加系统调用,毕竟如果可以重新编译内核的话,那实在是没有意思。

但文中所述动态新增系统调用的方式依然是老掉牙的方式,甚至和2011年的文章有所雷同,但是 这篇文章介绍的方式足够清爽!

我们从一个问题开始。我的问题是:

  • Linux系统中如何获取以及修改当前进程的名字??

你去搜一下这个topic,一堆冗余繁杂的方案,大多数都是借助procfs来完成这个需求,但没有直接的让人感到清爽的方法,比如调用一个getname接口即可获取当前进程的名字,调用一个modname接口就能修改自己的名字,没有这样的方法。

所以,干嘛不增加两个系统调用呢:

  • sys_getname: 获取当前进程名。
  • sys_setname: 修改当前进程名。

总体上,这是一个 增加两个系统调用的问题。

下面先演示动态增加一个系统调用的原理。还是使用2011年的老例子,这次我简单点,用systemtap脚本来实现。

千万不要质疑systemtap的威力,它的guru模式其实就是一个普通的内核模块,只是让编程变得更简单,所以, 把systemtap当一种方言来看待,而不仅仅作为调试探测工具。 甚至纯guru模式的stap脚本根本没有用到int 3断点,它简直可以用于线上生产环境!

演示增加系统调用的stap脚本如下:

#!/usr/bin/stap -g
// newsyscall.stap
%{
unsigned char *old_tbl;
// 这里借用本module的地址,分配静态数组new_tbl作为新的系统调用表。
// 注意:不能调用kmalloc,vmalloc分配,因为在x86_64平台它们的地址无法被内核rel32跳转过来!
unsigned char new_tbl[8*500] = {0};
unsigned long call_addr = 0;
unsigned long nr_addr = 0;
unsigned int off_old;
unsigned short nr_old;

// 使用内核现成的poke text接口,而不是自己去修改页表权限。
// 当然,也可以修改CR0,不过这显然没有直接用text_poke清爽。
// 这是可行的,不然呢?内核自己的ftrace或者live kpatch怎么办?!
void *(*_text_poke_smp)(void *addr, const void *opcode, size_t len);
%}

%{
// 2011年文章里的例子,打印一句话而已,我修改了函数名字,称作“皮鞋”
asmlinkage long sys_skinshoe(int i)
{
    printk("new call----:%d\n", i);
    return 0;
}
%}

function syscall_table_poke()
%{
    unsigned short nr_new = 0;
    unsigned int off_new = 0;
    unsigned char *syscall;
    unsigned long new_addr;
    int i;

    new_addr = (unsigned long)sys_skinshoe;
    syscall = (void *)kallsyms_lookup_name("system_call");
    old_tbl = (void *)kallsyms_lookup_name("sys_call_table");
    _text_poke_smp = (void *)kallsyms_lookup_name("text_poke_smp");

    // 拷贝原始的系统调用表,3200个字节有点多了,但绝对不会少。
    memcpy(&new_tbl[0], old_tbl, 3200);
    // 获取新系统调用表的disp32偏移(x86_64带符号扩展)。
    off_new = (unsigned int)((unsigned long)&new_tbl[0]);

    // 在system_call函数的指令码里进行特征匹配,匹配cmp $0x143 %rax
    for (i = 0; i < 0xff; i++) {
        if (syscall[i] == 0x48 && syscall[i+1] == 0x3d) {
            nr_addr = (unsigned long)&syscall[i+2];
            break;
        }
    }
    // 在system_call函数的指令码里进行特征匹配,匹配callq  *xxxxx(,%rax,8)
    for (i = 0; i < 0xff; i++) {
        if (syscall[i] == 0xff && syscall[i+1] == 0x14 && syscall[i+2] == 0xc5) {
            call_addr = (unsigned long)&syscall[i+3];
            break;
        }
    }
    // 1. 增加一个系统调用数量
    // 2. 使能新的系统调用表
    off_old = *(unsigned int *)call_addr;
    nr_old = *(unsigned short *)nr_addr;
    // 设置新的系统调用入口函数
    *(unsigned long *)&new_tbl[nr_old*8 + 8] = new_addr;
    nr_new = nr_old + 1;
    memcpy(&new_tbl[nr_new*8 + 8], &old_tbl[nr_old*8 + 8], 16);
    // poke 代码
    _text_poke_smp((void *)nr_addr, &nr_new, 2);
    _text_poke_smp((void *)call_addr, &off_new, 4);
%}

function syscall_table_clean()
%{
    _text_poke_smp((void *)nr_addr, &nr_old, 2);
    _text_poke_smp((void *)call_addr, &off_old, 4);
%}

probe begin
{
    syscall_table_poke();
}

probe end
{
    syscall_table_clean();
}

唯一需要解释的就是两处poke:

  1. 修改系统调用数量的限制。
  2. 修改系统调用表的位置。

我们从system_call指令码中一看便知:

crash> dis system_call
0xffffffff81645110 <system_call>:       swapgs
...
# 0x143需要修改为0x144
0xffffffff81645173 <system_call_fastpath>:      cmp    $0x143,%rax
0xffffffff81645179 <system_call_fastpath+6>:    ja     0xffffffff81645241 <badsys>
0xffffffff8164517f <system_call_fastpath+12>:   mov    %r10,%rcx
# -0x7e9b2c40需要被修正为新系统调用表的disp32偏移
0xffffffff81645182 <system_call_fastpath+15>:   callq  *-0x7e9b2c40(,%rax,8)
0xffffffff81645189 <system_call_fastpath+22>:   mov    %rax,0x20(%rsp)

如果代码正常,那么直接执行上面的stap脚本的话,新的系统调用应该已经生成,它的系统调用号为324,也就是0x143+1。至于说为什么系统调用号必须是逐渐递增的,请看:

callq  *-0x7e9b2c40(,%rax,8)

上述代码的含义是:

call index * 8 + disp32_offset 

这意味着内核是按照数组下标的方式索引系统调用的,这要求它们必须连续存放。

好了,回到现实,我们上面的行动是否成功了呢?事情到底是不是我们想象的那样的呢?我们写个测试case验证一下:

// newcall.c
int main(int argc, char *argv[])
{
    syscall(324, 1234);
    perror("new system call");
}

执行之,看结果:

[root@localhost test]# gcc newcall.c
[root@localhost test]# ./a.out
new system call: Success
[root@localhost test]# dmesg
[ 1547.387847] stap_6874ae02ddb22b6650aee5cd2e080b49_2209: systemtap: 3.3/0.176, base: ffffffffa03b6000, memory: 106data/24text/0ctx/2063net/9alloc kb, probes: 2
[ 1549.119316] new call----:1234

OK,成功!此时我们Ctrl-C掉我们的stap脚本,再次执行a.out:

[root@localhost test]# ./a.out
new system call: Function not implemented

完全符合预期。


OK,那么现在开始正事,即新增两个系统调用,sys_getname和sys_setname,分别为获取和设置当前进程的名字。

来吧,让我们开始。

其实 newsyscall.stap 已经足够了,稍微改一下即可,但是这里的 稍微改 体现了品质和优雅:

  • 改为oneshot模式,毕竟我不希望有个模块在系统里。

oneshot模式需要动态分配内存,保证在stap模块退出后这块内存不会随着模块的卸载而自动释放。而这个,我已经玩腻了。

直接上代码:

#!/usr/bin/stap -g
// poke.stp
%{
// 为了rel32偏移的可达性,借用模块映射空间的范围来分配内存。
#define START   _AC(0xffffffffa0000000, UL)
#define END     _AC(0xffffffffff000000, UL)

// 保存原始的系统调用表。
unsigned char *old_tbl;
// 保存新的系统调用表。
unsigned char *new_tbl;
// call系统调用表的位置。
unsigned long call_addr = 0;
// 系统调用数量限制检查的位置。
unsigned long nr_addr = 0;
// 原始的系统调用表disp32偏移。
unsigned int off_old;
// 原始的系统调用数量。
unsigned short nr_old;
void * *(*___vmalloc_node_range)(unsigned long, unsigned long,
            unsigned long, unsigned long, gfp_t,
            pgprot_t, int, const void *);
void *(*_text_poke_smp)(void *addr, const void *opcode, size_t len);
%}

%{
// 新系统调用的text被copy到了新的页面,因此最好不要调用内核函数。
// 这是因为内核函数之间的互调使用的是rel32调用,这就需要校准偏移,太麻烦。
// 记住:作为例子,不调用printk,也不调用memcpy/memset...如果想秀花活儿,自己去校准吧。
// 详细的秀法,参见我前面关于rootkit的文章。
long sys_setskinshoe(char *newname, unsigned int len)
{
    int i;

    if (len > 16 - 1)
        return -1;

    for (i = 0; i < len; i++) {
        current->comm[i] = newname[i];
    }
    current->comm[i] = 0;
    return 0;
}

long sys_getskinshoe(char *name, unsigned int len)
{
    int i;

    if (len > 16 - 1)
        return -1;

    for (i = 0; i < len; i++) {
        name[i] = current->comm[i];
    }
    return 0;
}

unsigned char *stub_sys_skinshoe;
%}

function syscall_table_poke()
%{
    unsigned short nr_new = 0;
    unsigned int off_new = 0;
    unsigned char *syscall;
    unsigned long new_addr;
    int i;

    syscall = (void *)kallsyms_lookup_name("system_call");
    old_tbl = (void *)kallsyms_lookup_name("sys_call_table");
    ___vmalloc_node_range = (void *)kallsyms_lookup_name("__vmalloc_node_range");
    _text_poke_smp = (void *)kallsyms_lookup_name("text_poke_smp");

    new_tbl = (void *)___vmalloc_node_range(8*500, 1, START, END,
                                GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL_EXEC,
                                -1, NULL/*__builtin_return_address(0)*/);
    stub_sys_skinshoe = (void *)___vmalloc_node_range(0xff, 1, START, END,
                                GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL_EXEC,
                                -1, NULL);
    // 拷贝代码指令
    memcpy(&stub_sys_skinshoe[0], sys_setskinshoe, 90);
    memcpy(&stub_sys_skinshoe[96], sys_getskinshoe, 64);
    // 拷贝系统调用表
    memcpy(&new_tbl[0], old_tbl, 3200);
    new_addr = (unsigned long)&stub_sys_skinshoe[0];

    off_new = (unsigned int)((unsigned long)&new_tbl[0]);
    // cmp指令匹配
    for (i = 0; i < 0xff; i++) {
        if (syscall[i] == 0x48 && syscall[i+1] == 0x3d) {
            nr_addr = (unsigned long)&syscall[i+2];
            break;
        }
    }
    // call指令匹配
    for (i = 0; i < 0xff; i++) {
        if (syscall[i] == 0xff && syscall[i+1] == 0x14 && syscall[i+2] == 0xc5) {
            call_addr = (unsigned long)&syscall[i+3];
            break;
        }
    }

    off_old = *(unsigned int *)call_addr;
    nr_old = *(unsigned short *)nr_addr;
    // 设置setskinshoe
    *(unsigned long *)&new_tbl[nr_old*8 + 8] = new_addr;
    new_addr = (unsigned long)&stub_sys_skinshoe[96];
    // 设置getskinshoe
    *(unsigned long *)&new_tbl[nr_old*8 + 8 + 8] = new_addr;
    // 系统调用数量增加2个
    nr_new = nr_old + 2;
    // 后移tail stub
    memcpy(&new_tbl[nr_new*8 + 8], &old_tbl[nr_old*8 + 8], 16);
    _text_poke_smp((void *)nr_addr, &nr_new, 2);
    _text_poke_smp((void *)call_addr, &off_new, 4);
    // 至此,新的系统调用表已经生效,尽情修改吧!
%}

probe begin
{
    syscall_table_poke();
    exit();
}

顺便,我把恢复原始系统调用表的操作脚本也附带上:

#!/usr/bin/stap -g
// revert.stp
%{
void *(*_text_poke_smp)(void *addr, const void *opcode, size_t len);
%}

function syscall_table_revert()
%{
    unsigned int off_new, off_old;
    unsigned char *syscall;
    unsigned long nr_addr = 0, call_addr = 0, orig_addr, *new_tbl;
    // 0x143这个还是记在脑子里吧.
    unsigned short nr_calls = 0x0143, curr_calls;
    int i;

    syscall = (void *)kallsyms_lookup_name("system_call");
    orig_addr = (unsigned long)kallsyms_lookup_name("sys_call_table");
    _text_poke_smp = (void *)kallsyms_lookup_name("text_poke_smp");

    for (i = 0; i < 0xff; i++) {
        if (syscall[i] == 0x48 && syscall[i+1] == 0x3d) {
            nr_addr = (unsigned long)&syscall[i+2];
            break;
        }
    }
    for (i = 0; i < 0xff; i++) {
        if (syscall[i] == 0xff && syscall[i+1] == 0x14 && syscall[i+2] == 0xc5) {
            call_addr = (unsigned long)&syscall[i+3];
            break;
        }
    }
    curr_calls = *(unsigned short *)nr_addr;
    off_new = *(unsigned int *)call_addr;
    off_old = (unsigned int)orig_addr;
    // decode出自己的系统调用表的地址。
    new_tbl = (unsigned long *)(0xffffffff00000000 | off_new);
    _text_poke_smp((void *)nr_addr, &nr_calls, 2);
    _text_poke_smp((void *)call_addr, &off_old, 4);

    vfree((void *)new_tbl[nr_calls + 1]);
    /*
    // loop free
    // 如果你增加的系统调用比较多,且分布在不同的malloc页面,那么就需要循环free
    for (i = 0; i < curr_calls - nr_calls; i ++) {
        vfree((void *)new_tbl[nr_calls + 1 + i]);
    }
    */
    // 释放自己的系统调用表
    vfree((void *)new_tbl);
%}

probe begin
{
    syscall_table_revert();
    exit();
}

来吧,开始我们的实验!

我不懂编程,所以我只能写最简单的代码展示效果,下面的C代码直接调用新增的两个系统调用,首先它获得并打印自己的名字,然后把名字改掉,最后再次获取并打印自己的名字:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(int argc, char *argv[])
{
    char name[16] = {0};
    syscall(325, name, 12);
    perror("-- get name before");
    printf("my name is %s\n", name);
    syscall(324, argv[1], strlen(argv[1]));
    perror("-- Modify name");
    syscall(325, name, 12);
    perror("-- get name after");
    printf("my name is %s\n", name);
    return 0;
}

下面是实验结果:

# 未poke时的结果
[root@localhost test]# ./test_newcall skinshoe
-- get name before: Function not implemented
my name is
-- Modify name: Function not implemented
-- get name after: Function not implemented
my name is
[root@localhost test]#
[root@localhost test]# ./poke.stp 
[root@localhost test]#
# poke之后的结果,此时lsmod,你将看不到任何和这个poke相关的内核模块,这就是oneshot的效果。
[root@localhost test]# ./test_newcall skinshoe
-- get name before: Success
my name is test_newcall
-- Modify name: Success
-- get name after: Success
my name is skinshoe
[root@localhost test]#
[root@localhost test]# ./revert.stp
[root@localhost test]#
# revert之后的结果
[root@localhost test]# ./test_newcall skinshoe
-- get name before: Function not implemented
my name is
-- Modify name: Function not implemented
-- get name after: Function not implemented
my name is
[root@localhost test]#

足够简单,足够直接,工人们和经理都可以上手一试。

我们如果让新增的系统调用干点坏事,那再简单不过了,得手之后呢?如何防止被经理抓到呢?封堵模块加载的接口即可咯,反正不加载内核模块,谁也别想看到当前系统的内核被hack成了什么样子,哦,对了,把/dev/mem的mmap也堵死哦…

…不过这是下面文章的主题了。

好了,今天就先写到这儿吧。


浙江温州皮鞋湿,下雨进水不会胖。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这