persist-1
|
e92c6130e1
|
fix(store): 修复存储实现的AsyncFileWriter导入
重构小红书存储实现,将store_comments方法改为处理单个评论的store_comment
为多个平台添加AsyncFileWriter工具类导入
|
2025-09-06 04:41:37 +08:00 |
|
persist-1
|
be306c6f54
|
refactor(database): 重构数据库存储实现,使用SQLAlchemy ORM替代原始SQL操作
- 删除旧的async_db.py和async_sqlite_db.py实现
- 新增SQLAlchemy ORM模型和数据库会话管理
- 统一各平台存储实现到_store_impl.py文件
- 添加数据库初始化功能支持
- 更新.gitignore和pyproject.toml依赖配置
- 优化文件存储路径和命名规范
|
2025-09-06 04:10:20 +08:00 |
|
程序员阿江(Relakkes)
|
fa5f07e9ee
|
docs: update README.md
|
2025-09-05 17:51:36 +08:00 |
|
程序员阿江(Relakkes)
|
6b6fedd031
|
fix: #711
|
2025-09-02 18:57:18 +08:00 |
|
程序员阿江(Relakkes)
|
2bce3593f7
|
feat: support time deplay for all platform
|
2025-09-02 16:43:09 +08:00 |
|
程序员阿江(Relakkes)
|
eb799e1fa7
|
refactor: xhs extractor
|
2025-09-02 14:50:32 +08:00 |
|
程序员阿江-Relakkes
|
ce52c58b98
|
Merge pull request #707 from CzsGit/fix-douyin-json-format
fix: 为抖音JSON存储添加格式化输出
|
2025-08-18 19:15:50 +08:00 |
|
Czs-HF
|
48da268bc5
|
fix: 为抖音JSON存储添加格式化输出
- 在DouyinJsonStoreImplement.save_data_to_json方法中添加indent=4参数
- 使抖音JSON输出格式与小红书保持一致,提高可读性
- 解决JSON文件所有内容都在一行的问题
|
2025-08-16 12:52:37 +08:00 |
|
程序员阿江(Relakkes)
|
9e8c979164
|
fix: note_download_url field length error
|
2025-08-14 14:57:24 +08:00 |
|
程序员阿江(Relakkes)
|
4a68e79ed0
|
docs: update README.md
|
2025-08-12 22:25:21 +08:00 |
|
程序员阿江-Relakkes
|
526c37822b
|
Merge pull request #700 from 2513502304/main
将捕获异常的类型由HTTPStatusError换成基类HTTPError,以便正确处理爬取媒体资源出现任何错误时,都不会导致爬取评论的中断,详情参见提交记录
|
2025-08-06 17:26:29 +08:00 |
|
翟持江
|
2c11e64dc9
|
Merge branch 'NanmiCoder:main' into main
|
2025-08-06 11:39:42 +08:00 |
|
未来可欺
|
6a10d0d11c
|
原始的HTTPStatusError不能捕获像ConnectError、ReadError这些异常类型,本次提交修改了捕获异常的类型为httpx模块请求异常的基类:HTTPError,以便捕获在httpx.request方法中引发的任何异常(例如ip被封,服务器拒接连接),正确处理爬取媒体被中断时并不会导致爬取文本的中断逻辑
|
2025-08-06 11:24:51 +08:00 |
|
程序员阿江-Relakkes
|
e4e0f659e0
|
Merge pull request #699 from 2513502304/main
添加了对媒体资源服务器的异常处理,参见 issue #691
|
2025-08-05 16:11:03 +08:00 |
|
未来可欺
|
81f2dbe4ab
|
添加了对媒体资源服务器的异常处理,参见 issue #691
|
2025-08-05 13:11:00 +08:00 |
|
程序员阿江(Relakkes)
|
b9d30bbabb
|
fix: #693
|
2025-08-01 15:55:21 +08:00 |
|
程序员阿江(Relakkes)
|
12450759d8
|
fix: httpx proxy format error
feat: add a ip proxy provider
|
2025-08-01 01:05:11 +08:00 |
|
程序员阿江-Relakkes
|
0024ce6ab4
|
feat: upgrade httpx version to 0.28.1
fix issue #689
|
2025-07-31 23:19:08 +08:00 |
|
未来可欺
|
a6fd9ebdbc
|
简单更改了抖音保存图片与视频的命名方式,一个视频 id 仅对应一个短视频,返回一个 video_download_url,因此不需要使用数字方式进行命名
|
2025-07-31 23:11:45 +08:00 |
|
未来可欺
|
0b81240aed
|
升级 httpx 版本至 0.28.1,并修改关键字参数 proxies 至 proxy
|
2025-07-31 22:48:02 +08:00 |
|
未来可欺
|
9d90e9fc6d
|
fix issue #689,目前来看,应该是 httpx 库的问题,因为无论是使用同步还是异步版本,构不构造 httpx.***Client 对象来发起请求,返回的响应都是为空,response.content = b'',response.text = ’‘,但换成 requests 库就能正常获取数据了
|
2025-07-31 22:01:48 +08:00 |
|
程序员阿江-Relakkes
|
a1535289c1
|
Merge pull request #687 from 2513502304/main
添加抖音平台爬取短视频以及帖子图片的逻辑,并规范目前实现爬取媒体的抖音、b站、小红书、微博四个平台存储逻辑
|
2025-07-30 23:06:35 +08:00 |
|
未来可欺
|
e9f976117a
|
将配置文件恢复原状
|
2025-07-30 21:32:00 +08:00 |
|
翟持江
|
082c316345
|
Merge branch 'NanmiCoder:main' into main
|
2025-07-30 21:28:29 +08:00 |
|
程序员阿江-Relakkes
|
c61ed57a20
|
fix: 二维码在部分系统无法显示 #685
fix: #685
|
2025-07-30 21:26:41 +08:00 |
|
未来可欺
|
93a1c27fff
|
通过测试search模式,修复部分运行时的bug,并对能够爬取媒体的平台设置了较长的超时时间
|
2025-07-30 21:19:56 +08:00 |
|
GokoRuri
|
87caf07495
|
fix: #685
|
2025-07-30 21:14:37 +08:00 |
|
未来可欺
|
a7cc18ec7d
|
修改部分文档
|
2025-07-30 18:58:10 +08:00 |
|
未来可欺
|
ecddfbe02c
|
将store文件夹中后缀名为_video或_image的.py文件统一更名为以_media.py为结尾的命名方式,避免某些平台仅有_video.py文件或_image.py文件的单独实现。之后的所有存储视频或图像的代码均放在此文件中实现
|
2025-07-30 18:32:08 +08:00 |
|
未来可欺
|
173bc08a9d
|
添加了抖音存储视频以及图片的逻辑,并将config.py中ENABLE_GET_IMAGES参数更名为ENABLE_GET_MEIDAS,在此基础上略微修改存储逻辑
|
2025-07-30 18:24:08 +08:00 |
|
程序员阿江(Relakkes)
|
417c39de69
|
docs: add a sponsor
|
2025-07-30 16:44:10 +08:00 |
|
程序员阿江-Relakkes
|
b2d52918ae
|
Merge pull request #684 from 2513502304/main
添加抖音笔记图片的存储逻辑
|
2025-07-30 14:51:46 +08:00 |
|
程序员阿江(Relakkes)
|
8ab1b7ee4c
|
fix: fixed circular import issue
|
2025-07-30 14:47:11 +08:00 |
|
翟持江
|
214ccaa294
|
Update sqlite_tables.sql,同步更新sqlite以支持保存笔记下载地址
|
2025-07-30 10:48:52 +08:00 |
|
翟持江
|
612a9b53d3
|
Update tables.sql,同步更新该文件以支持保存笔记下载地址
|
2025-07-30 10:46:46 +08:00 |
|
翟持江
|
e6db6be1ca
|
Update __init__.py,添加了提取抖音笔记图片的逻辑
|
2025-07-30 10:45:38 +08:00 |
|
程序员阿江-Relakkes
|
72a4d194c0
|
Merge pull request #680 from korruz/main
refactor: move format_proxy_info to utils and update crawler classes
|
2025-07-29 14:21:48 +08:00 |
|
korruz
|
07a6e387ea
|
refactor: move format_proxy_info to utils and update crawler classes to use it
|
2025-07-29 14:16:24 +08:00 |
|
程序员阿江-Relakkes
|
2935841872
|
Merge pull request #676 from andy9468/main
add aiosqlite
|
2025-07-28 11:33:42 +08:00 |
|
andy9468
|
3653fe2d37
|
add aiosqlite
|
2025-07-26 16:42:16 +08:00 |
|
程序员阿江-Relakkes
|
dbbc33a0df
|
Merge pull request #674 from persist-1/chore
chore: 增加--help参数中文显示支持;增加"douyin_aweme"表"music_download_url"字段与功能实现
|
2025-07-25 17:23:03 +08:00 |
|
persist-1
|
19df1734f1
|
chore: 增加--help参数中文显示支持及douyin_aweme表music_download_url字段\n\n- 为命令行参数增加中文显示支持,提升用户体验\n- 在douyin_aweme表中新增music_download_url字段用于存储视频音乐下载链接\n- 更新相关数据库表结构文件(tables.sql, sqlite_tables.sql)\n- 实现音乐下载URL提取逻辑并集成到数据存储流程
|
2025-07-24 22:39:53 +08:00 |
|
程序员阿江(Relakkes)
|
fc06c783f5
|
fix: fixed xhs req headers
|
2025-07-23 13:28:58 +08:00 |
|
程序员阿江(Relakkes)
|
b41896f4f3
|
docs: add a sponsor
|
2025-07-23 13:17:19 +08:00 |
|
程序员阿江(Relakkes)
|
a4d9aaa34a
|
refactor: xhs update
|
2025-07-21 21:26:16 +08:00 |
|
程序员阿江(Relakkes)
|
26a43358cb
|
chore: update config
|
2025-07-20 14:34:56 +08:00 |
|
程序员阿江(Relakkes)
|
13b00f7a36
|
refactor: config update
|
2025-07-18 23:26:52 +08:00 |
|
程序员阿江(Relakkes)
|
122978b35c
|
Merge pull request #652 from gaoxiaobei/dev
feat(bilibili): Add flexible search modes and fix limit logic
|
2025-07-18 21:41:20 +08:00 |
|
gaoxiaobei
|
8105b053ed
|
Merge remote-tracking branch 'origin/dev' into devdev
|
2025-07-18 17:37:29 +08:00 |
|
gaoxiaobei
|
7176956e51
|
Merge branch 'NanmiCoder:main' into dev
|
2025-07-18 17:32:04 +08:00 |
|