Wikidump 语料处理
wikidumps语料下载
wikidumps网址为en-wikidumps
wikidumps语料的处理
处理wikidumps语料可以用wikiextractor工具来提取。实现需要安装
1 |
|
然后可以有两种方法使用,一种是将库中的python模块用作脚本去运行
1 |
|
或者进入安装好的wikiextractor目录运行WikiExtractor.py来处理wikidumps预料
1 |
|
一些常见的参数
1 |
|
处理后的文件格式为
1 |
|
wikidumps语料按照title对齐
在线方式
在线方式可以使用特定的api来进行对齐,如wikipedia或者wikipediaapi,具体可见 Wikipedia 相关 API
离线方式
离线方式需要我们先下载好对齐语料,然后用工具处理,然后自己编写程序获取对齐信息。
首先从wikidumps中下载对齐所需的语料,其命名格式为
*-page.sql.gz
*-langlinks.sql.gz
其中*是个前缀,一般包含语种简写和时间信息。然后使用wikipedia-parallel-titles工具来生成标题对齐信息,该工具库中有一个build-corpus.sh
脚本,运行此脚本即可得到标题对齐文件,运行命令为./build-corpus.sh en zhwiki-latest > titles.txt
,该命令实现的是根据zhwiki-latest得到与en的标题对齐文件titles.txt。
Wikidump 语料处理
http://kaimss.github.io/2021/11/28/Wikidump 语料处理/