mirror of
https://github.com/NanmiCoder/MediaCrawler.git
synced 2026-06-24 09:44:56 +08:00
feat: 新增 JSONL 存储格式支持,默认存储格式改为 jsonl
JSONL(JSON Lines)每行一个 JSON 对象,采用 append 模式写入, 无需读取已有数据,大数据量下性能远优于 JSON 格式。 - 新增 AsyncFileWriter.write_to_jsonl() 核心方法 - 7 个平台新增 JsonlStoreImplement 类并注册到工厂 - 配置默认值从 json 改为 jsonl,CLI/API 枚举同步更新 - db_session.py 守卫条件加入 jsonl,避免误触 ValueError - 词云生成支持读取 JSONL 文件,优先 jsonl 回退 json - 原有 json 选项完全保留,向后兼容 - 更新相关文档和测试
This commit is contained in:
@@ -1,14 +1,14 @@
|
||||
# 关于词云图相关操作
|
||||
|
||||
## 1.如何正确调用词云图
|
||||
> ps:目前只有保存格式为json文件时,才会生成词云图。其他存储方式添加词云图将在近期添加。
|
||||
> ps:保存格式为json或jsonl文件时,才会生成词云图。其他存储方式添加词云图将在近期添加。
|
||||
|
||||
需要修改的配置项(./config/base_config.py):
|
||||
|
||||
```python
|
||||
# 数据保存类型选项配置,支持三种类型:csv、db、json
|
||||
#此处需要为json格式保存,原因如上
|
||||
SAVE_DATA_OPTION = "json" # csv or db or json
|
||||
# 数据保存类型选项配置,支持多种类型:csv、db、json、jsonl等
|
||||
#此处需要为json或jsonl格式保存,原因如上
|
||||
SAVE_DATA_OPTION = "jsonl" # csv or db or json or jsonl
|
||||
```
|
||||
|
||||
```python
|
||||
@@ -54,4 +54,4 @@ FONT_PATH= "./docs/STZHONGS.TTF"
|
||||
|
||||

|
||||
|
||||
如图,在data文件下的`words文件夹`下,其中json为词频统计文件,png为词云图。原本的评论内容在`json文件夹`下。
|
||||
如图,在data文件下的`words文件夹`下,其中json为词频统计文件,png为词云图。原本的评论内容在`jsonl文件夹`(或`json文件夹`)下。
|
||||
Reference in New Issue
Block a user