1
0
Code Issues Pull Requests Projects Releases Wiki Activity GitHub Gitee
tools/netease_music/todo.txt

86 lines
4.2 KiB
Plaintext
Raw Normal View History

2022-10-07 00:26:46 +08:00
cd C:\Users\Coz\Desktop\tools\
cd /www/neteasemusic/tools
2022-10-19 13:37:06 +08:00
node index --utils song --min 1800000000 --max 2000000000 --order DESC #
2022-10-09 17:37:57 +08:00
node index --utils song --min 1290000000 --max 1500000000 --order DESC #
node index --utils song --min 400000000 --max 1000000000 --order ASC #
node index --utils song --min 0 --max 400000000 --order ASC #
2022-10-06 21:25:42 +08:00
#############################################################################################
2022-10-09 17:37:57 +08:00
node index --utils album --min 134000000 --max 160000000 #
node index --utils album --min 0 --max 134000000 #
2022-10-06 21:25:42 +08:00
#############################################################################################
2022-10-19 13:37:06 +08:00
node index --utils artist #
2022-10-06 21:25:42 +08:00
#############################################################################################
2022-10-19 13:37:06 +08:00
node index --utils comment --min 1800000000 --max 2000000000 --order DESC #
node index --utils comment --min 1290000000 --max 1500000000 --order DESC #
node index --utils comment --min 400000000 --max 1000000000 --order ASC #
node index --utils comment --min 0 --max 400000000 --order ASC #
2022-10-06 21:25:42 +08:00
#############################################################################################
2022-10-19 13:37:06 +08:00
node index --utils lyric --min 1800000000 --max 2000000000 #
2022-10-09 17:37:57 +08:00
node index --utils lyric --min 400000000 --max 1000000000 #
2022-10-19 13:37:06 +08:00
node index --utils lyric --min 0 --max 400000000 #
2022-10-19 22:58:56 +08:00
#############################################################################################
node index --utils playlist #
2022-10-29 01:21:48 +08:00
正式库
node index --utils song
node index --utils album --min 10000000
node index --utils album --order desc
node index --utils artist
node index --utils playlist
node index --utils comment --limit 10000
node index --utils lyric
node index --utils assistant
本地库测试
node index --database neteasemusic_develop --utils song
node index --database neteasemusic_develop --utils album --min 10000000
node index --database neteasemusic_develop --utils album --order desc
node index --database neteasemusic_develop --utils artist
node index --database neteasemusic_develop --utils playlist
node index --database neteasemusic_develop --utils comment --limit 10000
node index --database neteasemusic_develop --utils lyric
node index --database neteasemusic_develop --utils assistant
思路:
通过一首歌查出对应的artist和album然后顺藤摸瓜查出网易云的其他song, album, artist, lyric, comment等
插入rel表的时候同时插入 wait_check_xx 表,然后后续检查这个表,如果不存在,那么就插入对应的 wait_fetch_xxx 表
之后查出 wait_fetch_xxx 表,进行数据拉取,形成闭环
2022-10-06 14:01:05 +08:00
后期:
爬取歌单playlist功能需要更新
2022-10-26 20:44:07 +08:00
删除song_playlist_relation表中rcmd_reason字段全是空字符串
2022-10-20 00:30:09 +08:00
歌单定时更新rel表中添加一个del字段先将歌单下面的全部置为删除状态再插入的时候把已有歌曲的标记重新修改为正常状态
2022-10-06 14:01:05 +08:00
评论的更新
2022-10-09 17:37:57 +08:00
被删除的aritst和album回头再通过其他表中的数据反查回来
歌曲目前爬取之后会有一部分没有image封面还是需要用旧方法爬取到
2022-10-09 17:37:57 +08:00
2022-10-19 22:58:56 +08:00
说明:
song表中data_version=1的音乐是第一次爬取的时候存在但是后面再爬取时不存在的音乐
2022-10-09 17:37:57 +08:00
后续分区(不能在现有表上修改,只能重新查出数据到新表)
alter table song add partition (
PARTITION p1 VALUES LESS THAN ( 50000000),
PARTITION p2 VALUES LESS THAN (1000000000),
PARTITION p3 VALUES LESS THAN (1500000000),
PARTITION p4 VALUES LESS THAN (2000000000),
PARTITION p5 VALUES LESS THAN MAXVALUE
2022-10-26 15:33:07 +08:00
);
SQL文件说明
sql/structure.sql 中的SQL为最简不包含字段的编码集
sql/neteasemusic.sql 中的SQL为数据库导出包含字段的编码集
项目数据库 CHARACTER SET 统一使用 'utf8mb4'COLLATE 统一使用 'utf8mb4_general_ci'