全球最大的音乐流媒体平台Spotify据称已被安娜档案馆(Anna's Archive)入侵。这个自称档案保管员的影子图书馆显然抓取了该平台的几乎全部内容,下载了约300 TB的音乐,目前正通过种子文件非法分发。

Spotify已承认并回应了此次攻击,向Android Authority发表了以下声明:“对未经授权访问的调查发现,第三方抓取了公开的元数据,并使用非法手段规避DRM,以访问平台的部分音频文件。我们正在积极调查此事。”
上述评论中的“部分”一词很关键,因为泄露的合集包含约8600万个文件,约占平台上所有音乐的37%(但占收听量的99.9%)。其中大部分以Spotify原始的OGG Vorbis 160 kbps格式保存,但如果任何歌曲的流行度评级恰好为0,则会被重新编码为75kbps以节省空间。
此外,还有2.56亿行元数据,占Spotify上所有收听量的99.6%,这些数据已被编译成可查询的SQL数据库。该小组对Spotify的API进行了近乎无损的JSON重建,包括1.86亿个唯一的ISRC(国际标准录音制品编码)——全球单个录音的标识符;可以将其视为音乐的ISBN。所有专辑信息、艺术家信息、封面艺术等均包含在内。
安娜档案馆发布的关于此次泄露的博客文章信息量惊人,包括一系列图表,详细说明了Spotify通常如何对待音乐。例如,平台上约70%的歌曲几乎无人问津,而0.1%的曲目是有史以来最受欢迎的。大多数歌曲也是单曲,而非专辑的一部分,120 BPM是最常见的节奏。
无论如何,正如安娜档案馆自己所描述的,此次大规模黑客攻击的目的是为了保存音乐。由于该小组因未经同意开源书籍而臭名昭著,它在此处应用了许多相同的逻辑,认为Spotify的收藏过于明显地集中在流行艺术家和音质上。需要有一个“旨在代表所有已制作音乐的权威种子列表”。
种子是自托管的,文件使用安娜档案馆容器(AAC)打包,这是该小组使用多年的自定义格式。元数据已经发布,其余数据将按流行度分类,以巨大的块状分批发布。因此,此次抓取的后果将在一段时间后才会真正显现。
Spotify已分享以下声明:“Spotify已识别并禁用了从事非法抓取的恶意用户账户。我们已针对此类反版权攻击实施了新的防护措施,并正在积极监控可疑行为。自第一天起,我们就与艺术家社区站在一起反对盗版,我们正积极与行业合作伙伴合作,以保护创作者并捍卫他们的权利。”



