C++系列

SomeCpp

Edimetia3D

18 Apr 2020 — 7 min read

零碎知识点

fflush仅仅是为了输出而设计的, 标准中并没有说明它对输入缓冲的效果.
一元运算符和=是右结合的,这和<<是完全不同的,a=b=c意味着a=(b=c),b=c将先执行,而a<<b<<c则是(a<<b)<<c,a<<b将先执行.
C++11后引入了thread_local型的生命周期,这种对象和线程的生命周期是一致的
C++11中很多类型都支持列表初始化,a = {value1,value2...}
- 列表初始化会额外检测是否可能存在信息丢失,如果可能存在丢失,则无法通过编译期检查.
- 对于自定义类,支持列表初始化意味着存在这样的ClassName(initializer_list<T> lst)构造函数
- 只要对象支持使用{}构造/赋值,相应的场合都可以使用{},例如return {1,2,3}
使用默认初始化时一定不要加括号,ClassName var()并不是在进行默认初始化,而是一个函数声明.
char在参与计算时,具体是有符号/无符号是由编译器决定的.
从C语言继承而来的标准库<name.h>都有其<cname>版本,目前并没有发现使用<cname>的特殊优势
- #include <cname>后,std::空间内一定有对应的函数名,全局空间可能也有
- #include <name.h>后,全局空间内一定有对应的函数名,std::空间可能也有
优先使用enum class
- enum class定义的枚举是强类型的,只能用Color c=Color::red这种表达式,enum则是弱类型的,Light c=0;int d=Light::red这种表达式都是合法的
- 另外,enum应当出现在头文件中,而不是源代码中
使用usigned int来表示大正数是有瑕疵的,因为代码中往往充斥着类型转换.usigned int类型更适合管理纯粹的二进制数据,这些数据的值意义更加淡化
- 如果你保持总是使用有符号数,那么就永远不会碰到符号转换引起的错误,可惜的是,size_t这样的历史错误已经无处不在了.
数值字面值对应的默认类型是依赖于编译器的,一定要注意
- 例如在VS中,字面值常量默认是int型的 long long a = 2^40,看起来没有问题,其实等价为int tmp=2^40; long long a = tmp, 这将导致仅有低32位被保留了
C++11起,提供了一个std::to_string()和std::stoi()来实现数值和字符串之间的转换.
在C++11中:
- 整数除法规定为截断,即向0取整,总是删除小数部分.早期版本中则由编译器决定取整的方式.
- 整数取模m%n的结果,其结果的绝对值为abs(m)%abs(n),符号和m相同
函数形参的默认值可以是"变量",例如void bar(int x=a);这一特性十分危险,一定要慎重使用.
- 函数形参的默认值最好保持为常量.
所有控制流记号后面都必须跟语句,如果什么也不做,就用;空语句
switch后的{}内是一个作用域,case的作用和goto的label相同,并不分割作用域
(condition?exprT:exprF)条件表达式仅当exprT与exprF都是左值表达式时才返回左值.
(expr1,expr2)逗号表达式顺序执行,返回最后一个表达式,这里就是expr2
sizeof(EXPR)是一个constexpr,完全在编译期求值.
优先级和结合律并不能处理所有的计算顺序问题,这主要是为编译器留下一定的优化空间.
- 例如(expr1) opt (expr2),我们可以确定expr1和expr2计算完之后才开始opt,但是expr1,expr2具体是哪个先执行,是由编译器决定的.
- 典型例子: cout<<i<<++i<<endl可以化为cout<<i<<(++i)<<endl,再从左向右结合,得((cout<<i)<<(++i))<<endl, 这里(cout<<i)<<(++i)中(++i)和(cout<<i)的求值顺序就是不确定的.
C语言中,只使用static inline. 这样可以保持和C++一样的语义和用法.(https://stackoverflow.com/questions/216510/extern-inline)
长度为0的"匿名位域"用于声明:占满存储单元的剩余空间 ,从而使得之后的位域从新的存储单元开始.
如果一个struct X的内存布局中最后一个类型是数组,那么我们可以通过malloc(sizeof(struct X) + sizeof(int) *(N - 1))的方式为实例额外分配更大的空间,使得尾部的数组可以"合法"的越界,形成一定的"动态size"的感觉.struct hack的方案比指针作为成员要简单一些,当指针作为成员时,你不可避免的需要做两次malloc,以及对应的两次free

struct Array{
  int N;
  int v[1]
};

C++ Parser issue, 下面的两行代码都将被编译器视为函数声明, my_thread和my_thread2都是函数名
- background_task()相当于T(), 将被parse为函数指针类型,相当于FnT = background_task(); .
- std::thread my_thread(FnT)进一步被parse为声明了一个函数
- 一般来说,当我们创建变量时,如果涉及了(), 一定要仔细想想是否正确

class background_task{
public:
  void operator()(){
  }
};

int main() {
  std::thread my_thread(background_task());
  std::thread my_thread2();
}

volatile

volatile用于指示编译器"变量可能会被编译器不可见的方式修改", 例如,其地址会被其他库拿到,然后修改.
- 指针也可以声明为volatile T * p的,用于表明指向的地址可能会被编译器不可见的方式修改.
volatile一般意味着:
- 编译器生成指令时,会尝试绕开所有级别的缓存(L0/L1/L2等), 例如, 每当需要使用值时, 都插入一条新的load, 而不是复用已经在寄存器里的值.
- 上面的约束也就导致部分编译期优化可能会被禁用.
volatile的行为随机器而改变,其用法和const相同,但更加严格,不允许T转换到volatile T也不允许T绑定到volatile T&&

库开发中在`.h`中暴露API的合理方式:

核心思想: 暴露出的struct和class都必须保证不依赖库内对象的内存结构,只能有symbol级别的依赖,不能有地址偏移的依赖.
提供两组接口,xx.h仅暴露C风格接口,xx.hpp仅暴露C++风格的接口,前者一般是后者的一个wrap.
头文件中只能使用Opaque类型,也就是说,除了内置类型,只能使用MyStruct *和MyClass *
暴露出的类一定是一个普通类,不能带有虚函数表(或者需要保证虚函数表的结构总是不变).
- 用户编译时产生的代码如果使用了虚函数,那么这次编译就会依赖库中的虚函数表.库开发者对虚函数表的任意改动都会引入兼容性问题.
暴露出的接口中,不能包含任何编译器自动生成的内容,主要是合成构造函数/合成析构函数/合成拷贝控制.
- 这些函数在实现时必须是类外定义.
- 因为客户的编译器合成出的版本极有可能和你的编译器合成的版本不一致.

Coroutine

从一般概念上说, 协程是特殊的函数调用: 被调用的函数可以在可控的位置被中断，然后在下一次调用时，继续从上次中断的位置继续执行。本文主要通过Python的协程来介绍协程, 这是我唯一熟悉的一种协程实现. Classic Coroutine 下面的python代码很好的说明了协程的核心功能 def co_routine(): recv0 = yield 996 # hangs here after first coro.send assert recv0 == "Second" yield 711 # hangs here after second coro.send return def main(): coro = co_routine() # Create a new coroutine object value = coro.send(None)

GDB with Python

这篇文章的主要应用场景是调试Python的C/C++ Extension 1. 同时使用pdb / gdb 进行调试. 通俗点说, 既可以break在 .py 文件中,也可以break在 .cc 文件中 2. 在gdb中不但可以获得常规的调试信息, 还可以获得python VM 的调试信息, 例如获得python的调用栈, 访问Python局部变量等. 这将会在调试exception时(如Segmentfalut)非常有用, 这种场景下, 定位 Python VM 正运行到哪一行代码往往可以提供一些直观的重要信息. 第一步: 编译源码以获得一些辅助数据. 我们并不真的需要使用从源码编译的Python, 但是一些调试相关的辅助文件需要从源码中获得, 包括 python-gdb.py及debug symbol等. 在 https://www.python.org/ftp/python/ 或 https://github.com/python/cpython

Bazel Notes

这是一篇2019年左右的记录, 内容可能过时, 也不太全面杂谈 Bazel是Google为Monorepo服务而开发的构建工具. 首先是巨大,当问题的规模变大,事情总是会变得更复杂. 而Google面对的"巨大Monorepo",应该是世间罕有的. 然后是Monorepo,这极大的影响了代码的组织风格.例如,你要写一个操作系统内核ProjectOS,还要写一个游戏ProjectGame.在传统的开发习惯中,这两个项目会组织到两个不同的Repo里,PorjectOS和ProjectGame之间无法直接相互引用,例如,你在ProjectOS里写了一个高级的数据结构,想要在Game里也使用,要么直接复制粘贴,要么是创建一个新的CommonRepo,把可公用的代码都放在Common里,然后两个项目各自引入Common作为依赖. 使用MonoRepo则不存在这个问题,Game可以直接依赖OS内的组件,按照Bazel的语法描述,就是在Game中可以直接使用@ProjectOS//path/to/package:AdvancedStruct.当然,你仍然可以选择重构一

Unix related things

这是一篇2017年左右的记录, 仅用作分享杂 * 在shell内能干的事,我们都可以比较简单地通过系统调用实现. * `称为反引号,^称为脱字符,常用来表示CTRL * windows的系统调用是不开放的,windows下只能直接使用windows.h里的windows API. * /dev目录下的设备是供用于程序直接使用的,主要由block,char,pipe,socket类型 * 并不是所有设备都能映射为这种形式 * /sys/device/目录称为sysfs,他下面存放了所有设备的信息.(不能直接从/dev获得任何设备信息) * udevadm info --query=all --name="/dev/sda1"可以用于查询/dev下某个设备对应的sysfs路径权限系统 * 权限系统由两部分组成 * 文件属性:用于标注文件owner,所属组,以及权限的设定(默认只有owner和root可以修改权限设置) *