mirror of https://github.com/NanmiCoder/MediaCrawler.git synced 2026-06-24 09:44:56 +08:00

Files

程序员阿江(Relakkes) 0282e626c9 feat: 新增 JSONL 存储格式支持，默认存储格式改为 jsonl

JSONL（JSON Lines）每行一个 JSON 对象，采用 append 模式写入，
无需读取已有数据，大数据量下性能远优于 JSON 格式。

- 新增 AsyncFileWriter.write_to_jsonl() 核心方法
- 7 个平台新增 JsonlStoreImplement 类并注册到工厂
- 配置默认值从 json 改为 jsonl，CLI/API 枚举同步更新
- db_session.py 守卫条件加入 jsonl，避免误触 ValueError
- 词云生成支持读取 JSONL 文件，优先 jsonl 回退 json
- 原有 json 选项完全保留，向后兼容
- 更新相关文档和测试

2026-03-03 23:31:07 +08:00

1.8 KiB

Raw Blame History

关于词云图相关操作

1.如何正确调用词云图

ps:保存格式为json或jsonl文件时，才会生成词云图。其他存储方式添加词云图将在近期添加。

需要修改的配置项（./config/base_config.py）：

# 数据保存类型选项配置,支持多种类型：csv、db、json、jsonl等
#此处需要为json或jsonl格式保存，原因如上
SAVE_DATA_OPTION = "jsonl"  # csv or db or json or jsonl

# 是否开启爬评论模式, 默认不开启爬评论
#此处为True，需要爬取评论才可以生成评论的词云图。
ENABLE_GET_COMMENTS = True

#词云相关
#是否开启生成评论词云图
#打开词云图功能
ENABLE_GET_WORDCLOUD = True

# 添加自定义词语及其分组
#添加规则：xx:yy 其中xx为自定义添加的词组，yy为将xx该词组分到的组名。
CUSTOM_WORDS = {
    '零几': '年份',  # 将“零几”识别为一个整体
    '高频词': '专业术语'  # 示例自定义词
}

#停用(禁用)词文件路径
STOP_WORDS_FILE = "./docs/hit_stopwords.txt"

#中文字体文件路径
FONT_PATH= "./docs/STZHONGS.TTF"

相关解释

自定义词组的添加，xx:yy 中xx为自定义词语，yy为xx分配词语的组别。yy可以随便给任意值。
如果需要添加禁用词，请在./docs/hit_stopwords.txt添加禁用词(保证格式正确，一个词语一行)
FONT_PATH为生成词云图中中文字体的格式，默认为宋体。可以自行添加字体文件，修改路径。

2.生成词云图的位置

如图，在data文件下的words文件夹下，其中json为词频统计文件，png为词云图。原本的评论内容在jsonl文件夹（或json文件夹）下。

1.8 KiB Raw Blame History Unescape Escape

关于词云图相关操作

1.如何正确调用词云图

2.生成词云图的位置

1.8 KiB

Raw Blame History