Help - Search - Members - Calendar
Full Version: Конвертация китайской Wikipedia
Профессиональный Востоковедческий Форум > Китай 中国 > Китайские словари (БКРС и прочее)
Oleg
Конвертация китайской Wikipedia

Что удалось найти в сети по проблеме конвертации:

1. Уже конвертированную вики в формат Sdictionary можно найти на сайте http://sdict.ru/ (на момент написания сообщения сайт недоступен). Там выложена китайская википедия ZH 2007-01-05. (прямая ссылка http://sdict.com/ru/view.php?file=zhwiki-2007-01-05_wiki.dct )

Программа для просмотра Sdictionary for Windows english version v 1.0.0 (демо):
http://axmasoft.com/rsc/download.php?produ....0.0-win-en.zip

Русская Wikipedia 2007-01-03, 197446 статей, конвертировано AXMA Soft:
http://rapidshare.com/files/33875922/ruwik....part1.rar.html
http://rapidshare.com/files/33877093/ruwik....part2.rar.html

2. Следующая инструкция от создателя программы Dict http://www.free-dict.narod.ru/

Converter_wiki

Создана возможность каждому пользователю самому сделать (и обновлять в дальнейшем) словарик википедии на ЛЮБОМ языке.
Но процесс конвертации долгий и на слабой машине может занять от нескольких часов до нескольких дней.
Также для конвертации потребуется много свободного места на винте.
Примеры:
Для конвертации EN-вики нужно около 25 гигабайт свободного пространства на винте.
Для конвертации RU-вики нужно около 3 гигабайт свободного пространства на винте.

Последовательность действий:

I) Скачать Converter_wiki, распаковать.

II) Зайти по ссылке для скачивания википедии:
http://download.wikipedia.org/backup-index.html
Найти википедию на нужном вам языке
(например RU-вики: http://download.wikipedia.org/ruwiki/20070202/ )
скачать pages-meta-current архив bz2 нужной вам википедии (в названии скачиваемого файла должно быть слово pages-meta-current).
И скопировать этот архив в папку Converter_wiki (в папке Converter_wiki одновременно должен находится только один архив bz2!!!)

II. а)Если pages-meta-current архив отсутствует или не скачивается\расжимается по причине ошибки архива, то пройти по ссылке Last dumped on... (слева вверху страницы)
Для поиска предыдущей версии pages-meta-current архива.
И так до тех пор пока не найдете\скачаете не "сломанный" meta-current архив.

III) Запустить Start.bat в папке Converter_wiki и дождаться окончания конвертации (Черное окошко должно САМО закрыться. Его вручную закрывать НЕ НУЖНО).
Все.
В результате получится словарик нужной вам вики с расширением zd .

Дальнейшие подробности http://forum.pocketz.ru/index.php?showtopic=23149&st=60

Cловари для программы Dict (Windows Mobile)
http://dict.pocketz.ru/
=============================

Как бы базы, полученные таким способом, конвертнуть под лингво? Они того стоят. Особенно для перевода разных географических названий и имен собственных, которых в существующих на данный момент словарях очень мало.
Oleg
Китайская версия википедии от 2007-May-25 для Dict – 135 Мб.

http://rapidshare.com/files/36196029/wiki.part2.rar
http://rapidshare.com/files/36200865/wiki.part1.rar

Смотрится не очень. Программа не поддерживает для иероглифов перенос по границе окна и увеличение иероглифов.
LiBeiFeng
QUOTE(Oleg @ Jun 9 2007, 15:32) *
Конвертация китайской Wikipedia

Как бы базы, полученные таким способом, конвертнуть под лингво? Они того стоят. Особенно для перевода разных географических названий и имен собственных, которых в существующих на данный момент словарях очень мало.


Не знаю как это выглядит в форматах: Sdictionary и Dict, но фомат Лингво в том виде как он сейчас есть малоподходящий изначально для энцклопедий, из-за весьма убогих возможностей возможностей форматирования текста и невозможности непосредственной вставки рисунков и таблиц в текст. Если для обычных словарей, где важен текст, с этим можно ещё как-то скрипя зубы смириться, то для энцклопедий где куча таблиц, рисунков и и прочего оформления, это огромный минус. wink.gif Конечно в Лингов Вики конвертнуть может быть будет и можно, но вот только выглядеть она будет ужасно убого. Возможным выходом из этого положения является технология, использованная при конвертации БЭС (Большой Советской энциклопедии) под Лингво. Как известно в Лингво есть возможности ссылки на веб-страницу. Так вот каждая статья в ней оформлялсь виде ссылки на оную - это позволяло использовать в полной мере все оформительские возможности HTML.
Oleg
На самом деле исходник получился вполне приличный. Все картинки и таблицы удалены, но оставшегося материала вполне достаточно для понимания смысла слова. На мой взгляд, исходник достаточно просто будет конвертировать в лингво.

Выкладываю текстовый файл. Размер – 326 Мб. RAR – 101 Мб.

http://rapidshare.com/files/36314386/wiki.part1.rar
http://rapidshare.com/files/36316628/wiki.part2.rar

Единственное, все правки надо будет делать в виде макроса или программы, чтобы периодически делать обновления по мере внесения новых статей и дополнений в википедию.

Oleg
Click to view attachment

Черновая конвертация для лингво китайской википедии завершена. Данные соответствуют 25 мая 2007 г.

Два файла DSL - общий объем 315 Мб. В RAR - 98 Мб. Количество карточек - около 104 тысяч.

Недостатки - большое количество ошибок компиляции, вызванных исходником википедии. Требуется доработка самого процесса конвертации.

Заголовки в основном в упрощенных иероглифах, хотя встречаются и традиционные.
Echter
QUOTE(Oleg @ Jun 14 2007, 17:38) *
Черновая конвертация для лингво китайской википедии завершена...

   Далеко ли продвинулся процесс конвертации? Я посмотрел исходник словаря - его, похоже, несложно переделать в Лингво с сохранением основного форматирования и большинства перекрёстных ссылок. Хотя за это время в онлайн-википедии количество статей возросло на добрый десяток тысяч, иметь такой источник в общей связке Лингво-словарей всё равно было бы неплохо. Стоит ли этим заняться? Есть ли какие-то наработки?
Oleg
Цитата(Echter @ Jul 10 2007, 21:44) *
   Далеко ли продвинулся процесс конвертации?

Остался в черновом варианте. Каких-то особых наработок нет, делал вручную в EmEditor. Заняться стоит в том смысле, что необходимо что-то наподобие скрипта как в Converter_wiki, чтобы можно было потом тупо его запускать по мере прибавления статей на китайской википедии.
Echter
QUOTE(Oleg @ Jul 10 2007, 23:11) *
Заняться стоит в том смысле, что необходимо что-то наподобие скрипта как в Converter_wiki, чтобы можно было потом тупо его запускать по мере прибавления статей на китайской википедии.

   А исходник откуда? Есть ли какая-то гарантия, что его формат не изменится?
   Сделать скрипт для компиляции теоретически можно. Но я использую для создания словарей LingvoDicConverter, который переводит словарь в базу данных, а уж из неё конвертирует. Кстати, в случае с Википедией там, может быть, даже не потребуется ручная доводка, всё будет сконвертировано на автомате (ещё не проверял, но на досуге займусь).
Oleg
Цитата(Echter @ Jul 11 2007, 13:46) *
   А исходник откуда? Есть ли какая-то гарантия, что его формат не изменится?

Исходник здесь:
http://download.wikipedia.org/zhwiki/
папка latest , файл с расширением bz2
Формат если и будет меняться, то только если будет меняться общий формат всей вики, мне так представляется.
Echter
   Давненько уже пощупал китайскую Википедию на предмет конвертации в Лингво, всё недосуг было поделиться опытом.
   Сделал нечто вроде скрипта - на самом деле, просто список замен с регулярными выражениями, который преобразует исходник энциклопедии в простейший dsl-формат. С небольшими правками этим "скриптом" можно воспользоваться для любой Википедии.
   Но. Исходник, как выяснилось, крайне неоднороден.
  • Во-первых, изрядное количество технического "мусора" - ненужных статей, которые касаются создания Википедии. Вроде бы, от мусора удалось избавиться, но нет стопроцентной гарантии, что вместе с ним не пропало что-то нужное.
  • Во-вторых: отсутствие единого прозрачного формата. Символы HTML бессистемным образом чередуются с юникодовыми символами. Таблицы реализованы разными способами, и их пришлось вырезать целиком.
  • В-третьих, специфичные тэги Википедии. Некоторые из них неоправданно многозначны и сложны. Например, большую проблему представляет собой достаточно простая вещь: дата рождения и смерти персоны, указываемая в скобках. Программа Converter_wiki, о которой Олег говорил здесь в самом первом сообщении, так вообще вырезает эти нужные сведения (и, очевидно, не только их).
   Вывод: для того, чтобы конвертировать это дело нужным образом, необходимо дотошно изучить формат исходников, на что у меня, признаться, не было времени. Есть и другой вариант: воспользовавшись движком Википедии, конвертировать текст в HTML, а уж из него при помощи доступных средств (LingvoDic Converter) преобразовывать в формат Лингво. Не знаю только, существует ли такая возможность.
   Converter_wiki не годится для полноценного словаря. Мой "скрипт" работает, вроде бы, немного лучше (хотя и дольше), но тоже не решает всех проблем - прежде всего потому, что создавался без детальной проработки формата.
LiBeiFeng
QUOTE(Echter @ Sep 4 2007, 19:33) *
...   
Есть и другой вариант: воспользовавшись движком Википедии, конвертировать текст в HTML, а уж из него при помощи доступных средств (LingvoDic Converter) преобразовывать в формат Лингво. Не знаю только, существует ли такая возможность.
   Converter_wiki не годится для полноценного словаря. Мой "скрипт" работает, вроде бы, немного лучше (хотя и дольше), но тоже не решает всех проблем - прежде всего потому, что создавался без детальной проработки формата.


Мне кажется лучшим вариантом было бы конвертировать отдельные страницы Википедии целиком в обычный HTML, а потом выделить оттуда толлько заголовки и по ним построить индекс для Лингво (по типу как в БЭС). Это позволило бы сохранить основную структуру текста, ибо там такое количество вставленных в текст рисунков и таблиц, что терять всю эту информацию превращая исходник в убогий Лингво-формат было бы преступлением. Правда весить это будет прилично...
Кстати, обратили внимание, что там полная неразбериха с полными и упрощёнными формами?
Echter
QUOTE(LiBeiFeng @ Sep 5 2007, 11:39) *
Мне кажется лучшим вариантом было бы конвертировать отдельные страницы Википедии целиком в обычный HTML, а потом выделить оттуда толлько заголовки и по ним построить индекс для Лингво (по типу как в БЭС). Это позволило бы сохранить основную структуру текста, ибо там такое количество вставленных в текст рисунков и таблиц, что терять всю эту информацию превращая исходник в убогий Лингво-формат было бы преступлением. Правда весить это будет прилично...
Кстати, обратили внимание, что там полная неразбериха с полными и упрощёнными формами?

   Как выяснилось, HTML-версия таки есть: http://static.wikipedia.org/downloads. Правда, пока что самая последняя - за апрель. Подозреваю, что LingvoDicConverter должен брать её на "ура" без всяких лишних телодвижений. Но пока нет времени на эксперименты.
   Идея индекса для Лингво меня не вдохновляет. Даже один HTML без картинок будет занимать кучу места, да и работа с таким индексом не отличается удобством.
   Мешанина из полных и упрощённых форм - достаточно показательное явление. Это китайцам головная боль ещё не на одно десятилетие.
LiBeiFeng
QUOTE(Echter @ Sep 7 2007, 19:56) *
   Как выяснилось, HTML-версия таки есть: http://static.wikipedia.org/downloads. Правда, пока что самая последняя - за апрель. Подозреваю, что LingvoDicConverter должен брать её на "ура" без всяких лишних телодвижений. Но пока нет времени на эксперименты.


Там для китайского есть и за август... Правда странно, это что-то не то явно - какая-то статистика...

QUOTE
   Идея индекса для Лингво меня не вдохновляет. Даже один HTML без картинок будет занимать кучу места, да и работа с таким индексом не отличается удобством.
   

И всё-таки под убогим форматом Лингво это будет нечто весьма некрасивое. Вся прелесть Википедии с рисунками и таблицами пропадает - остатаётся фактически один голимый текст. Кстати, а русскую версию никто не пробовал конвертировать под какую-либо словарную оболочку?

QUOTE
Мешанина из полных и упрощённых форм - достаточно показательное явление. Это китайцам головная боль ещё не на одно десятилетие.


Вообще непонятно зачем они так сделали... Не лучше ли было бы создать 2 отдельных языка: китайский упр. и китайский трад. (или к примеру китайский (КНР) и китайский (Гонконг-Тайвань)), чем валить всё в одну кучу? И не было бы никаких проблем! Вон высосалили же они из пальца "Сибирский язык" (вероятно чья-то весьма не самая удачная шутка, но тем не меннее торчит в списке sad.gif )...
hvw
В стардикте есть интсрумент для автоматической конвертации sql-дампов википедии (с любого языка) в stardict-формат, который легко конвертируется в dsl с помощью пакета makedict. Также существует phyton-программа для просмотра wikipedia-дампов.
hvw
Ещё проще: версия википедия-дампа для стардикта. Всё конвертируется втроенной в stardict-tools программой прямо из википедия-дампа. Из стардикт-формата можно сконвертировать в лингво, но смысла не вижу: есть же стардикт для Виндовс. Словарь занимает 257 Мб в развёрнутом виде (dict.dz). Версия дампа от 2006/12/18.

This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Invision Power Board © 2001-2010 Invision Power Services, Inc.