V2EX › wxf666 的所有回复 › 第 9 页 / 共 26 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 5 6 7 8 9 10 11 12 13 14 ... 26

❮

❯

2022-11-07 01:21:17 +08:00

回复了 Jobing 创建的主题 › 程序员 › 当你解析 JSON 时， Number 类型双精度丢失可以尝试使用 json-bn

@bertonzh 试着写出来了：

*（ V 站排版原因，行首有全角空格）*

```javascript
function parseJson(json) {

　 function restore(obj) {
　　 if (typeof obj === 'number')
　　　 return nums[obj];
　　 else if (Array.isArray(obj))
　　　 obj.forEach((v, i) => obj[i] = restore(v));
　　 else if (typeof obj === 'object' && obj !== null)
　　　 Object.keys(obj).forEach(k => obj[k] = restore(obj[k]));
　　 return obj;
　}

　 let nums = [];
　 return restore(JSON.parse(json.replace(/"(?:\\?.)*?"|-?\d+(?:\.\d+)?(?:[eE][+-]?\d+)?/g, m =>
　　 m[0] === '"' ? m : nums.push(/[.eE]/.test(m) || Number.isSafeInteger(+m) ? +m : BigInt(m)) - 1
　)));
}
```

拿了个本地 64.8 MB 的 `~/.conda/pkgs/cache/e5e4a514.json` 测了下速度： *（ i5-8250U ，`nodejs` v16 ）*

- #5 楼的方法：3.3 s
- 此楼方法：2.2 s = 正则替换 1.5 s + json 解析 0.4 s + 递归替换 0.3 s
- `json-bigint` *（`{useNativeBigInt: true}`）*：1.7 s

2022-11-06 16:53:55 +08:00

回复了 Jobing 创建的主题 › 程序员 › 当你解析 JSON 时， Number 类型双精度丢失可以尝试使用 json-bn

@bertonzh 写漏了：

`/^(?:字符串|整数|浮点|true|false|null|[[\]{},]|\s+)*$/`

2022-11-06 16:52:23 +08:00

回复了 Jobing 创建的主题 › 程序员 › 当你解析 JSON 时， Number 类型双精度丢失可以尝试使用 json-bn

@bertonzh 回头再看看，其实应该还没处理好有浮点数的 `json`。但思路是一样的，碰到字符串、浮点数，跳过就好。

如果担心 `eval` 了危险的 `js`，我觉得可以正则匹配下，看是不是全为 `json` 的元素：

`/^(?:字符串|整数|浮点|true|false|null|[[\]{},]|\s+)$/`

其实，我感觉可以：

1. 正则匹配出，并用一个数组记录下所有整数，再替换为在数组中的下标。
2. `JSON.parse()` 后，再遍历所有为整数的值，替换回来（这时候就可以决定用不用 `bigint` 了）

好处：

1. 这应该会比手动解析 `json` 快
2. 而且代码体积小（可能十来行就可以了）
3. 不用担心 `eval`、`new Function` 能不能用，危不危险的问题

2022-11-06 04:04:48 +08:00

回复了 Jobing 创建的主题 › 程序员 › 当你解析 JSON 时， Number 类型双精度丢失可以尝试使用 json-bn

@bertonzh `js` 新手。感觉通过正则找到数字，并替换为 `bigint`，最后再 `eval` 或 `new Function`，也能读取含有大数字的 `json` 诶：

```javascript
s = '{"x": ": 12345678901234561111", "y": [-12345678901234561111, "12345678901234561111", -123456, "\\"12345678901234561111\\""]}';

eval('(' + s.replace(/"(?:\\?.)*?"|-?\d+/g, m => !isFinite(m) || Number.isSafeInteger(+m) ? m : m + 'n') + ')');
```

结果：

```javascript
{
　 x: ": 12345678901234561111",
　 y: [
　　-12345678901234561111n,
　　"12345678901234561111",
　　-123456,
　　"\"12345678901234561111\""
　]
}
```

2022-11-06 00:48:21 +08:00

回复了 Tecson 创建的主题 › Android › Android 手机外接键盘，去哪里能找到支持的快捷键列表？

这有啥应用场景吗。。随时随地 code ？还是。。？

2022-11-06 00:45:35 +08:00

回复了 nowheremanx 创建的主题 › 程序员 › 有没有可能把一个数据库的 text field 变成可拓展、易阅读的数据格式？

@totoro52 数据库新手请教一下，如果是用 `MySQL` 实现的话，这个 `字段数据表` 结构是咋样的呢？

`（ ID PRIMARY KEY ，所属记录 ID ，字段 ID ，数据 TEXT ，INDEX （所属记录 ID ，字段 ID ））` 这样？

检索，用全文索引？

排序。。是啥。。

> 比如 A 模块有个联系人，B 模块在选 A 模块列表数据时，需要把 B 模块的联系人自动填写进去

（可能没理解透功能）直接 JOIN 能解决吗？

2022-11-05 11:07:39 +08:00

回复了 nowheremanx 创建的主题 › 程序员 › 有没有可能把一个数据库的 text field 变成可拓展、易阅读的数据格式？

@nowheremanx 会不会『希望用户能老老实实填写正确的 `toml`』有点不现实？

比如，会不会出现：

- 不小心删掉了一点 `{indicator}`，导致你没法定位
- 写成了中文符号 *（`tags = [“程序员”，“大牛”] `）*
- 没正确转义字符串 *（`path = "C:\users\toml\Desktop\new\使用"的注意事项.docx"`）*
- 输错键名 *（`tag = ...`）*
- ……

2022-11-05 10:13:35 +08:00

回复了 nowheremanx 创建的主题 › 程序员 › 有没有可能把一个数据库的 text field 变成可拓展、易阅读的数据格式？

@renmu MySQL 好像可以给 json 字段做索引吧？连数组也能做索引（ multi-valued Indexes ）

2022-11-05 09:59:37 +08:00

回复了 nowheremanx 创建的主题 › 程序员 › 有没有可能把一个数据库的 text field 变成可拓展、易阅读的数据格式？

奇怪，不能动态构造有 firstName, lastName, education, tag, travel, …… 等字段的表单，给用户填写吗？

用户提交后，后端再转成 json ，写进数据库。。

好像不难啊？

2022-11-04 20:41:26 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 所以，一招『自增 /uuid/……主键 + 业务字段加索引』吃天下，应该是没问题的？

#4 楼的 `SQL` 代码，改成自增主键 + `(date, reg_date, uid, amount)` 覆盖索引，应该也能很快

但，如果表结构有几个 `text` 字段（反正导致没法添加到覆盖索引里，一定要回表），会为了速度 /性能，牺牲这个原则，改为 `(date, reg_date, uid)` 主键吗？（按 4 楼例子说，可享受 30 次 `range` 级速度）

还是继续坚持原则，各种分库分表分布式大数据一通上？（ 2.6 亿次 `eq_ref` 级速度）

2022-11-04 01:28:30 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 可我看一些帖子（比如 [这个帖子]( /t/654133 )），不用自增 /uuid/……，而用业务主键，简直是要被铺天盖地的教训和嘲讽淹没。。比如：

1. 工作中被同事打
2. 大学生毕业设计
3. 小学生设计
4. 没有经验胡乱设计
5. B+ 树随机插入，导致页分裂严重，导致性能很低
6. 阿里巴巴《 Java 开发手册》[强制]规定……
7. 合并表时用 uuid 很轻松

我很怀疑第 5 条：虽然聚集表是能顺序插入了，但索引也要随机插入，也会导致页分裂呀？而且总体工作量不是更大了（还要额外维护一个自增主键 /uuid/……）？

比较认同的是第 7 条

2022-11-04 01:05:25 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 可我觉得，有些业务字段做主键，可以极大提升数据库速度诶。。

比如 4 楼的『消费记录表』，使用 `(消费日期、用户注册日期、用户 ID)` 做主键，统计 2.6 亿条消费数据的 ROI ，也只需几秒钟（得益于大量的顺序读取）

如果用自增主键 /uuid/……，我不敢想象要多久才能统计完（因为要 2.6 亿次 `eq_ref` 级的 `WHERE id = ?`）

2022-11-03 23:32:50 +08:00

回复了 maosu 创建的主题 › Linux › V 友们，请教个提取两个字符串中的语句并加引号的 sed 写法

```shell
$ sed "s/dare/'&'/" <<<'howdareyou'
how'dare'you
```

2022-11-03 23:30:44 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@Features 数据库新手请教一下，大佬怎么看待这种观点：

> 数据库，只能用自增主键。业务逻辑字段不能做主键，最多只能加索引

2022-11-03 23:04:15 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@deweixu @Features 按照 #3 楼的第二种统计方式，用 SQLite 测试了生成整张表、统计整张表（文末附上源码）。结果如下：

日期范围　　新用户数　消费记录数　生成用时　　　统计用时　　　　内存使用
————————————————————————————————————
　３０天　　３００万　２６００万　　３０秒　２．４秒（单线程）　　３ＭＢ
　３０天　３０００万　　２．６亿　３００秒　７．７秒（四线程）　１４ＭＢ

（环境：i5-8250U 轻薄本，Windows 10 。感觉速度和内存占用表现都还可以）

## 数据生成规则（以 30 天内 300W 用户 2600W 消费记录为例）：

1. 每天新增 10W 用户 *（第一天新增 `user_id` 为 `[1, 10W]`，第二天新增 `uid` 为 `[10W+1, 20W]`，……）*
2. `uid` 为 `0` 的是老用户，在起始日期前一天（ 1999-12-31 ）注册 *（用于检查统计时，是否已把老用户数据剔除在外）*
3. 每个用户连续 10 天，每天充值 1 元 *（`uid = 0` 的老用户每天都在充值）*
4. 从第一天开始，每两天投广告 100W 元 *（即，2000-01-01 、2000-01-03 、……）*

## 统计结果预览（以 30 天内 300W 用户 2600W 消费记录为例）：

　　日期　　当天新用户收入　累计新用户收入　累计广告投入　　ＲＯＩ
———————————————————————————————————
０１－０１　　　１０Ｗ　　　　　１０Ｗ　　　　１００Ｗ　　１０．００％
０１－０２　　　２０Ｗ　　　　　３０Ｗ　　　　１００Ｗ　　３０．００％
０１－０３　　　３０Ｗ　　　　　６０Ｗ　　　　２００Ｗ　　３０．００％
０１－０４　　　４０Ｗ　　　　１００Ｗ　　　　２００Ｗ　　５０．００％
０１－０５　　　５０Ｗ　　　　１５０Ｗ　　　　３００Ｗ　　５０．００％
０１－０６　　　６０Ｗ　　　　２１０Ｗ　　　　３００Ｗ　　７０．００％
０１－０７　　　７０Ｗ　　　　２８０Ｗ　　　　４００Ｗ　　７０．００％
０１－０８　　　８０Ｗ　　　　３６０Ｗ　　　　４００Ｗ　　９０．００％
０１－０９　　　９０Ｗ　　　　４５０Ｗ　　　　５００Ｗ　　９０．００％
０１－１０　　１００Ｗ　　　　５５０Ｗ　　　　５００Ｗ　１１０．００％
０１－１１　　１００Ｗ　　　　６５０Ｗ　　　　６００Ｗ　１０８．３３％
０１－１２　　１００Ｗ　　　　７５０Ｗ　　　　６００Ｗ　１２５．００％
……
０１－２８　　１００Ｗ　　　２３５０Ｗ　　　１４００Ｗ　１６７．８６％
０１－２９　　１００Ｗ　　　２４５０Ｗ　　　１５００Ｗ　１６３．３３％
０１－３０　　１００Ｗ　　　２５５０Ｗ　　　１５００Ｗ　１７０．００％

## 源码使用方式：

去 SQLite 官网下载个 1 MB 的 sqlite3.exe ，然后保存下面的 SQLite 代码为 main.sql ，然后命令行运行：

```shell
sqlite3.exe data.db < main.sql
```

多线程用到了 Python 。在 sqlite3.exe 生成数据库后，可直接运行

## SQLite 建表和统计（单线程）代码：

*（ V 站排版原因，行首有全角空格）*

```sql
PRAGMA journal_mode = off; -- 取消日志记录。这会输出个 off 。。
PRAGMA synchronous = off; -- 提交写请求给操作系统后，就可继续后续计算

.param init

-- 投资数据生成配置（日期间隔、每次投资额、日期范围）
.param set $INVEST_INTERVAL_DAYS 2
.param set $INVEST_AMOUNT_PER_DAY 1000000
.param set $INVEST_START_DATE "'2000-01-01'"
.param set $INVEST_END_DATE "'2000-01-30'"

-- 用户消费数据生成配置（消费天数、每日新增用户数、日期范围）
.param set $CONSUME_DAYS 10
.param set $DAILY_NEW_USERS 100000
.param set $CONSUME_START_DATE "'2000-01-01'"
.param set $CONSUME_END_DATE "'2000-01-30'"

-- 查询数据配置
.param set $QUERY_START_DATE "'2000-01-01'"
.param set $QUERY_END_DATE "'2000-01-30'"

-- 建表：投资表
CREATE TABLE invest (
　　 date 　 DATE PRIMARY KEY,
　　 amount INT
);

-- 建表：消费记录表
CREATE TABLE consume (
　　 uid 　　　 INT,
　　 date 　　 DATE,
　　 reg_date DATE,
　　 amount 　 INT,
　　 PRIMARY KEY (date, reg_date, uid)
) WITHOUT ROWID;

-- 添加投资数据：在指定日期范围内，每 INVEST_INTERVAL_DAYS 天投 INVEST_AMOUNT_PER_DAY 元
INSERT INTO invest (date, amount)
SELECT day.value, $INVEST_AMOUNT_PER_DAY
　 FROM generate_series(unixepoch($INVEST_START_DATE) / 86400, unixepoch($INVEST_END_DATE) / 86400, $INVEST_INTERVAL_DAYS) day;

-- 添加消费记录
INSERT INTO consume (amount, uid, date, reg_date)

-- 1. 从起始日期前一天开始，user_id = 0 的老用户，每天消费 1 元，直至结束日期
SELECT 1, 0, date.value, unixepoch($CONSUME_START_DATE, '-1 day') / 86400
　 FROM generate_series(unixepoch($CONSUME_START_DATE, '-1 day') / 86400, unixepoch($CONSUME_END_DATE) / 86400) date
UNION ALL

-- 2. 在指定日期范围内，每天有 DAILY_NEW_USERS 名新用户，连续 CONSUME_DAYS 天消费 1 元
SELECT 1,
　　　 user.value,
　　　 unixepoch($CONSUME_START_DATE, (day.value - 1) || ' days') / 86400,
　　　 unixepoch($CONSUME_START_DATE, ((user.value - 1) / $DAILY_NEW_USERS) || ' days') / 86400
　 FROM generate_series(1, (unixepoch($CONSUME_END_DATE) - unixepoch($CONSUME_START_DATE)) / 86400 + 1) day
　 JOIN generate_series(MAX(0, day.value - $CONSUME_DAYS) * $DAILY_NEW_USERS + 1, day.value * $DAILY_NEW_USERS) user;

-- 统计：指定日期范围内，新用户投资回报率
-- （ user_id = 0 的用户，在起始日期前一天注册，是老用户，故不会统计）
WITH
　-- 每日新用户当天收入表
　 daily(date, income) AS (
　　 SELECT date, SUM(amount)
　　　 FROM consume
　　 WHERE reg_date BETWEEN unixepoch($QUERY_START_DATE) / 86400 AND unixepoch($QUERY_END_DATE) / 86400
　　 GROUP BY date
　)

SELECT date(daily.date * 86400, 'unixepoch') 日期,
　　　 income 当天新用户收入,
　　　 SUM(income) OVER win 累计新用户收入,
　　　 SUM(invest.amount) 累计广告投入,
　　　 FORMAT('%.2f%%', SUM(income) OVER win * 100.0 / SUM(invest.amount)) ROI
　 FROM daily
　 LEFT JOIN invest ON invest.date BETWEEN unixepoch($QUERY_START_DATE) / 86400 AND daily.date
GROUP BY daily.date
WINDOW win AS (ORDER BY daily.date);
```

## Python 多线程统计代码：

*（ V 站排版原因，行首有全角空格）*

```python
import time
import sqlite3
from contextlib import closing
from datetime import date, timedelta
from concurrent.futures import ThreadPoolExecutor

THREADS = 4 # 线程数
DB_FILE = 'data.db' # 数据库路径地址
QUERY_START_DATE = '2000-01-01'
QUERY_END_DATE = '2000-01-30'

def sub(days):
　 with closing(sqlite3.connect(DB_FILE)) as db:
　　 return db.execute('''
　　　 SELECT date, SUM(amount)
　　　 FROM consume
　　　 WHERE date = strftime('%s', ?) / 86400
　　　　 AND reg_date BETWEEN strftime('%s', ?) / 86400 AND strftime('%s', ?) / 86400
　　''', [
　　　 str(date.fromisoformat(QUERY_START_DATE) + timedelta(days=days)),
　　　 QUERY_START_DATE,
　　　 QUERY_END_DATE,
　　]).fetchone()

def main():
　 with closing(sqlite3.connect(DB_FILE)) as db, ThreadPoolExecutor(max_workers=THREADS) as executor:

　　 begin = time.time()
　　 data = list(executor.map(sub, range((date.fromisoformat(QUERY_END_DATE) - date.fromisoformat(QUERY_START_DATE)).days + 1)))

　　 db.execute('CREATE TEMP TABLE daily (date DATE PRIMARY KEY, income INT)')
　　 db.executemany('INSERT INTO daily VALUES (?, ?)', data)
　　 cursor = db.execute('''
　　　 SELECT date(daily.date * 86400, 'unixepoch') 日期,
　　　　　　 income 当天新用户收入,
　　　　　　 SUM(income) OVER win 累计新用户收入,
　　　　　　 SUM(invest.amount) 累计广告投入,
　　　　　　 PRINTF('%.2f%%', SUM(income) OVER win * 100.0 / SUM(invest.amount)) ROI
　　　　 FROM daily
　　　　 LEFT JOIN invest ON invest.date BETWEEN strftime('%s', ?) / 86400 AND daily.date
　　　 GROUP BY daily.date
　　　 WINDOW win AS (ORDER BY daily.date)
　　''', [QUERY_START_DATE])

　　 print(
　　　 f'Finished in {time.time() - begin:.2f} sec. Result:',
　　　[col[0] for col in cursor.description],
　　　*cursor,
　　　 sep='\n',
　　)

if __name__ == '__main__':
　 main()
```

2022-11-03 10:34:39 +08:00

回复了 JinTianYi456 创建的主题 › MySQL › SQL 中 on 条件与 where 条件的区别

反正 SQLite 的 [文档]( https://sqlite.org/lang_select.html#where_clause_filtering_ ) 说过这个问题：

> For a JOIN or INNER JOIN or CROSS JOIN, there is **no difference** between a constraint expression in the WHERE clause and one in the ON clause. However, for a LEFT JOIN or LEFT OUTER JOIN, the difference is very important. ……

我觉得，1 MB 的 SQLite 都能做到无区别，其他数据库肯定至少也可以做到无区别

2022-11-02 23:26:53 +08:00

回复了 sdjl 创建的主题 › Linux › 请问如何让 ls 命令显示的 “文件夹” 使用斜体？

有意思，学着用了下 LS_COLORS ，下面命令在 Bash 里可以『加粗、下划线、斜体』显示目录

```shell
LS_COLORS='di=1;3;4' ls
```

2022-11-02 22:49:07 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

@deweixu @Features 这个 ROI 计算公式是啥？

1. 某天的 ROI = 该天所有新增用户，从当天到今天的总消费 / 该天广告花费？

每天都要投广告吗？没投广告的，岂不是 / 0 了？

而且，好像看楼主的计算结果，不是这样。。

2. 指定统计起始日期（如 11-02 ），某天的 ROI = 起始日期~当天，所有新增用户的总消费 / 起始日期~当天，所有广告总花费？

2022-11-02 20:23:33 +08:00

回复了 deweixu 创建的主题 › 程序员 › 想问问大家 ROI 报表怎么实现的？

有没有啥表结构和数据？数据库新手想试试，能不能用 SQL 解决

2022-11-02 10:00:35 +08:00

回复了 shade 创建的主题 › 程序员 › 如果用目录编号来存储树结构数据，是不是邻接表和闭包表更高效，那检索目录的算法是什么？

@shade 这种做法。。不就是枚举路径？

1 ... 5 6 7 8 9 10 11 12 13 14 ... 26

❮

❯