ClickHouse和他的朋友们(8)纯手工打造的SQL解析器

Stella981
• 阅读 746

原文出处:https://bohutang.me/2020/07/25/clickhouse-and-friends-parser/

现实生活中的物品一旦被标记为“纯手工打造”,给人的第一感觉就是“上乘之品”,一个字“贵”,比如北京老布鞋。

但是在计算机世界里,如果有人告诉你 ClickHouse 的 SQL 解析器是纯手工打造的,是不是很惊讶!这个问题引起了不少网友的关注,所以本篇聊聊 ClickHouse 的纯手工解析器,看看它们的底层工作机制及优缺点。

枯燥先从一个 SQL 开始:

EXPLAIN SELECT a,b FROM t1

token

首先对 SQL 里的字符逐个做判断,然后根据其关联性做 token 分割:

ClickHouse和他的朋友们(8)纯手工打造的SQL解析器

比如连续的 WordChar,那它就是 BareWord,解析函数在 Lexer::nextTokenImpl(),解析调用栈:

DB::Lexer::nextTokenImpl() Lexer.cpp:63DB::Lexer::nextToken() Lexer.cpp:52DB::Tokens::operator[](unsigned long) TokenIterator.h:36DB::TokenIterator::get() TokenIterator.h:62DB::TokenIterator::operator->() TokenIterator.h:64DB::tryParseQuery(DB::IParser&, char const*&, char const*, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> >&, bool, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, bool, unsigned long, unsigned long) parseQuery.cpp:224DB::parseQueryAndMovePosition(DB::IParser&, char const*&, char const*, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, bool, unsigned long, unsigned long) parseQuery.cpp:314DB::parseQuery(DB::IParser&, char const*, char const*, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, unsigned long, unsigned long) parseQuery.cpp:332DB::executeQueryImpl(const char *, const char *, DB::Context &, bool, DB::QueryProcessingStage::Enum, bool, DB::ReadBuffer *) executeQuery.cpp:272DB::executeQuery(DB::ReadBuffer&, DB::WriteBuffer&, bool, DB::Context&, std::__1::function<void (std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&, std::__1::basic_string<char, std::__1::char_traits<char>, std::__1::allocator<char> > const&)>) executeQuery.cpp:731DB::MySQLHandler::comQuery(DB::ReadBuffer&) MySQLHandler.cpp:313DB::MySQLHandler::run() MySQLHandler.cpp:150 

ast

token 是最基础的元组,他们之间没有任何关联,只是一堆生冷的词组与符号,所以我们还需对其进行语法解析,让这些 token 之间建立一定的关系,达到一个可描述的活力。

ClickHouse 在解每一个 token 的时候,会根据当前的 token 进行状态空间进行预判(parse 返回 true 则进入子状态空间继续),然后决定状态跳转,比如:

EXPLAIN  -- TokenType::BareWord

逻辑首先会进入Parsers/ParserQuery.cpp 的 ParserQuery::parseImpl 方法:

    bool res = query_with_output_p.parse(pos, node, expected)        || insert_p.parse(pos, node, expected)        || use_p.parse(pos, node, expected)        || set_role_p.parse(pos, node, expected)        || set_p.parse(pos, node, expected)        || system_p.parse(pos, node, expected)        || create_user_p.parse(pos, node, expected)        || create_role_p.parse(pos, node, expected)        || create_quota_p.parse(pos, node, expected)        || create_row_policy_p.parse(pos, node, expected)        || create_settings_profile_p.parse(pos, node, expected)        || drop_access_entity_p.parse(pos, node, expected)        || grant_p.parse(pos, node, expected);

这里会对所有 query 类型进行 parse 方法的调用,直到有分支返回 true。

我们来看第一层 query_with_output_p.parse Parsers/ParserQueryWithOutput.cpp:

    bool parsed =           explain_p.parse(pos, query, expected)        || select_p.parse(pos, query, expected)        || show_create_access_entity_p.parse(pos, query, expected)        || show_tables_p.parse(pos, query, expected)        || table_p.parse(pos, query, expected)        || describe_table_p.parse(pos, query, expected)        || show_processlist_p.parse(pos, query, expected)        || create_p.parse(pos, query, expected)        || alter_p.parse(pos, query, expected)        || rename_p.parse(pos, query, expected)        || drop_p.parse(pos, query, expected)        || check_p.parse(pos, query, expected)        || kill_query_p.parse(pos, query, expected)        || optimize_p.parse(pos, query, expected)        || watch_p.parse(pos, query, expected)        || show_access_p.parse(pos, query, expected)        || show_access_entities_p.parse(pos, query, expected)        || show_grants_p.parse(pos, query, expected)        || show_privileges_p.parse(pos, query, expected

跳进第二层 explain_p.parse ParserExplainQuery::parseImpl状态空间:

bool ParserExplainQuery::parseImpl(Pos & pos, ASTPtr & node, Expected & expected){    ASTExplainQuery::ExplainKind kind;    bool old_syntax = false;    ParserKeyword s_ast("AST");    ParserKeyword s_analyze("ANALYZE");    ParserKeyword s_explain("EXPLAIN");    ParserKeyword s_syntax("SYNTAX");    ParserKeyword s_pipeline("PIPELINE");    ParserKeyword s_plan("PLAN");    ... ...    else if (s_explain.ignore(pos, expected))    {       ... ...    }        ... ...        ParserSelectWithUnionQuery select_p;    ASTPtr query;    if (!select_p.parse(pos, query, expected))        return false;    ... ...

s_explain.ignore 方法会进行一个 keyword 解析,解析出 ast node:

EXPLAIN -- keyword

跃进第三层 select_p.parse ParserSelectWithUnionQuery::parseImpl状态空间:

bool ParserSelectWithUnionQuery::parseImpl(Pos & pos, ASTPtr & node, Expected & expected){    ASTPtr list_node;    ParserList parser(std::make_unique<ParserUnionQueryElement>(), std::make_unique<ParserKeyword>("UNION ALL"), false);    if (!parser.parse(pos, list_node, expected))        return false;...

parser.parse 里又调用第四层 ParserSelectQuery::parseImpl 状态空间:

bool ParserSelectQuery::parseImpl(Pos & pos, ASTPtr & node, Expected & expected){    auto select_query = std::make_shared<ASTSelectQuery>();    node = select_query;    ParserKeyword s_select("SELECT");    ParserKeyword s_distinct("DISTINCT");    ParserKeyword s_from("FROM");    ParserKeyword s_prewhere("PREWHERE");    ParserKeyword s_where("WHERE");    ParserKeyword s_group_by("GROUP BY");    ParserKeyword s_with("WITH");    ParserKeyword s_totals("TOTALS");    ParserKeyword s_having("HAVING");    ParserKeyword s_order_by("ORDER BY");    ParserKeyword s_limit("LIMIT");    ParserKeyword s_settings("SETTINGS");    ParserKeyword s_by("BY");    ParserKeyword s_rollup("ROLLUP");    ParserKeyword s_cube("CUBE");    ParserKeyword s_top("TOP");    ParserKeyword s_with_ties("WITH TIES");    ParserKeyword s_offset("OFFSET");    ParserNotEmptyExpressionList exp_list(false);    ParserNotEmptyExpressionList exp_list_for_with_clause(false);    ParserNotEmptyExpressionList exp_list_for_select_clause(true);      ...                if (!exp_list_for_select_clause.parse(pos, select_expression_list, expected))            return false;

第五层 exp_list_for_select_clause.parse ParserExpressionList::parseImpl状态空间继续:

bool ParserExpressionList::parseImpl(Pos & pos, ASTPtr & node, Expected & expected){    return ParserList(        std::make_unique<ParserExpressionWithOptionalAlias>(allow_alias_without_as_keyword),        std::make_unique<ParserToken>(TokenType::Comma))        .parse(pos, node, expected);}

... ... 写不下去个鸟!

可以发现,ast parser 的时候,预先构造好状态空间,比如 select 的状态空间:

  1. expression list

  2. from tables

  3. where

  4. group by

  5. with ...

  6. order by

  7. limit

在一个状态空间內,还可以根据 parse 返回的 bool 判断是否继续进入子状态空间,一直递归解析出整个 ast。

总结

手工 parser 的好处是代码清晰简洁,每个细节可防可控,以及友好的错误处理,改动起来不会一发动全身。缺点是手工成本太高,需要大量的测试来保证其正确性,还需要一些fuzz来保证可靠性。好在ClickHouse 已经实现的比较全面,即使有新的需求,在现有基础上修修补补即可。

文内链接

延伸阅读

全文完。

Enjoy ClickHouse :)

叶老师的「MySQL核心优化」大课已升级到MySQL 8.0,扫码开启MySQL 8.0修行之旅吧

ClickHouse和他的朋友们(8)纯手工打造的SQL解析器

本文分享自微信公众号 - 老叶茶馆(iMySQL_WX)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Karen110 Karen110
3年前
一篇文章带你了解JavaScript日期
日期对象允许您使用日期(年、月、日、小时、分钟、秒和毫秒)。一、JavaScript的日期格式一个JavaScript日期可以写为一个字符串:ThuFeb02201909:59:51GMT0800(中国标准时间)或者是一个数字:1486000791164写数字的日期,指定的毫秒数自1970年1月1日00:00:00到现在。1\.显示日期使用
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
6个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(