IPB

Профессиональный Востоковедческий форум для незарегистрированных посетителей работает в режиме «только для чтения», часть разделов при этом недоступна. Если вы хотите участвовать в работе форума, и получить доступ к другим разделам, оставьте заявку здесь. На форуме осуществляется работа по оцифровке в формате Лингво китайско-русских словарей, желающие могут присоединиться.


Welcome Guest ( Log In | Register )

 
Reply to this topicStart new topic
> Конвертация китайской Wikipedia
Oleg
post Jun 9 2007, 15:32
Post #1


Advanced Member
***

Group: Root Admin
Posts: 5345
Joined: 17-February 06
Member No.: 2





Конвертация китайской Wikipedia

Что удалось найти в сети по проблеме конвертации:

1. Уже конвертированную вики в формат Sdictionary можно найти на сайте http://sdict.ru/ (на момент написания сообщения сайт недоступен). Там выложена китайская википедия ZH 2007-01-05. (прямая ссылка http://sdict.com/ru/view.php?file=zhwiki-2007-01-05_wiki.dct )

Программа для просмотра Sdictionary for Windows english version v 1.0.0 (демо):
http://axmasoft.com/rsc/download.php?produ....0.0-win-en.zip

Русская Wikipedia 2007-01-03, 197446 статей, конвертировано AXMA Soft:
http://rapidshare.com/files/33875922/ruwik....part1.rar.html
http://rapidshare.com/files/33877093/ruwik....part2.rar.html

2. Следующая инструкция от создателя программы Dict http://www.free-dict.narod.ru/

Converter_wiki

Создана возможность каждому пользователю самому сделать (и обновлять в дальнейшем) словарик википедии на ЛЮБОМ языке.
Но процесс конвертации долгий и на слабой машине может занять от нескольких часов до нескольких дней.
Также для конвертации потребуется много свободного места на винте.
Примеры:
Для конвертации EN-вики нужно около 25 гигабайт свободного пространства на винте.
Для конвертации RU-вики нужно около 3 гигабайт свободного пространства на винте.

Последовательность действий:

I) Скачать Converter_wiki, распаковать.

II) Зайти по ссылке для скачивания википедии:
http://download.wikipedia.org/backup-index.html
Найти википедию на нужном вам языке
(например RU-вики: http://download.wikipedia.org/ruwiki/20070202/ )
скачать pages-meta-current архив bz2 нужной вам википедии (в названии скачиваемого файла должно быть слово pages-meta-current).
И скопировать этот архив в папку Converter_wiki (в папке Converter_wiki одновременно должен находится только один архив bz2!!!)

II. а)Если pages-meta-current архив отсутствует или не скачивается\расжимается по причине ошибки архива, то пройти по ссылке Last dumped on... (слева вверху страницы)
Для поиска предыдущей версии pages-meta-current архива.
И так до тех пор пока не найдете\скачаете не "сломанный" meta-current архив.

III) Запустить Start.bat в папке Converter_wiki и дождаться окончания конвертации (Черное окошко должно САМО закрыться. Его вручную закрывать НЕ НУЖНО).
Все.
В результате получится словарик нужной вам вики с расширением zd .

Дальнейшие подробности http://forum.pocketz.ru/index.php?showtopic=23149&st=60

Cловари для программы Dict (Windows Mobile)
http://dict.pocketz.ru/
=============================

Как бы базы, полученные таким способом, конвертнуть под лингво? Они того стоят. Особенно для перевода разных географических названий и имен собственных, которых в существующих на данный момент словарях очень мало.


--------------------
Go to the top of the page
 
+Quote Post
Oleg
post Jun 9 2007, 22:50
Post #2


Advanced Member
***

Group: Root Admin
Posts: 5345
Joined: 17-February 06
Member No.: 2





Китайская версия википедии от 2007-May-25 для Dict – 135 Мб.

http://rapidshare.com/files/36196029/wiki.part2.rar
http://rapidshare.com/files/36200865/wiki.part1.rar

Смотрится не очень. Программа не поддерживает для иероглифов перенос по границе окна и увеличение иероглифов.


--------------------
Go to the top of the page
 
+Quote Post
LiBeiFeng
post Jun 10 2007, 11:29
Post #3


Advanced Member
***

Group: BCG
Posts: 659
Joined: 21-February 06
From: Bangkok
Member No.: 25





QUOTE(Oleg @ Jun 9 2007, 15:32) *
Конвертация китайской Wikipedia

Как бы базы, полученные таким способом, конвертнуть под лингво? Они того стоят. Особенно для перевода разных географических названий и имен собственных, которых в существующих на данный момент словарях очень мало.


Не знаю как это выглядит в форматах: Sdictionary и Dict, но фомат Лингво в том виде как он сейчас есть малоподходящий изначально для энцклопедий, из-за весьма убогих возможностей возможностей форматирования текста и невозможности непосредственной вставки рисунков и таблиц в текст. Если для обычных словарей, где важен текст, с этим можно ещё как-то скрипя зубы смириться, то для энцклопедий где куча таблиц, рисунков и и прочего оформления, это огромный минус. wink.gif Конечно в Лингов Вики конвертнуть может быть будет и можно, но вот только выглядеть она будет ужасно убого. Возможным выходом из этого положения является технология, использованная при конвертации БЭС (Большой Советской энциклопедии) под Лингво. Как известно в Лингво есть возможности ссылки на веб-страницу. Так вот каждая статья в ней оформлялсь виде ссылки на оную - это позволяло использовать в полной мере все оформительские возможности HTML.
Go to the top of the page
 
+Quote Post
Oleg
post Jun 10 2007, 15:39
Post #4


Advanced Member
***

Group: Root Admin
Posts: 5345
Joined: 17-February 06
Member No.: 2





На самом деле исходник получился вполне приличный. Все картинки и таблицы удалены, но оставшегося материала вполне достаточно для понимания смысла слова. На мой взгляд, исходник достаточно просто будет конвертировать в лингво.

Выкладываю текстовый файл. Размер – 326 Мб. RAR – 101 Мб.

http://rapidshare.com/files/36314386/wiki.part1.rar
http://rapidshare.com/files/36316628/wiki.part2.rar

Единственное, все правки надо будет делать в виде макроса или программы, чтобы периодически делать обновления по мере внесения новых статей и дополнений в википедию.



--------------------
Go to the top of the page
 
+Quote Post
Oleg
post Jun 14 2007, 18:38
Post #5


Advanced Member
***

Group: Root Admin
Posts: 5345
Joined: 17-February 06
Member No.: 2





Attached File  001.jpg ( 37.34k ) Number of downloads: 24


Черновая конвертация для лингво китайской википедии завершена. Данные соответствуют 25 мая 2007 г.

Два файла DSL - общий объем 315 Мб. В RAR - 98 Мб. Количество карточек - около 104 тысяч.

Недостатки - большое количество ошибок компиляции, вызванных исходником википедии. Требуется доработка самого процесса конвертации.

Заголовки в основном в упрощенных иероглифах, хотя встречаются и традиционные.


--------------------
Go to the top of the page
 
+Quote Post
Echter
post Jul 10 2007, 20:44
Post #6


Advanced Member
***

Group: BCG
Posts: 263
Joined: 3-March 06
From: Sakhalin
Member No.: 94





QUOTE(Oleg @ Jun 14 2007, 17:38) *
Черновая конвертация для лингво китайской википедии завершена...

   Далеко ли продвинулся процесс конвертации? Я посмотрел исходник словаря - его, похоже, несложно переделать в Лингво с сохранением основного форматирования и большинства перекрёстных ссылок. Хотя за это время в онлайн-википедии количество статей возросло на добрый десяток тысяч, иметь такой источник в общей связке Лингво-словарей всё равно было бы неплохо. Стоит ли этим заняться? Есть ли какие-то наработки?
Go to the top of the page
 
+Quote Post
Oleg
post Jul 11 2007, 00:11
Post #7


Advanced Member
***

Group: Root Admin
Posts: 5345
Joined: 17-February 06
Member No.: 2





Цитата(Echter @ Jul 10 2007, 21:44) *
   Далеко ли продвинулся процесс конвертации?

Остался в черновом варианте. Каких-то особых наработок нет, делал вручную в EmEditor. Заняться стоит в том смысле, что необходимо что-то наподобие скрипта как в Converter_wiki, чтобы можно было потом тупо его запускать по мере прибавления статей на китайской википедии.


--------------------
Go to the top of the page
 
+Quote Post
Echter
post Jul 11 2007, 12:46
Post #8


Advanced Member
***

Group: BCG
Posts: 263
Joined: 3-March 06
From: Sakhalin
Member No.: 94





QUOTE(Oleg @ Jul 10 2007, 23:11) *
Заняться стоит в том смысле, что необходимо что-то наподобие скрипта как в Converter_wiki, чтобы можно было потом тупо его запускать по мере прибавления статей на китайской википедии.

   А исходник откуда? Есть ли какая-то гарантия, что его формат не изменится?
   Сделать скрипт для компиляции теоретически можно. Но я использую для создания словарей LingvoDicConverter, который переводит словарь в базу данных, а уж из неё конвертирует. Кстати, в случае с Википедией там, может быть, даже не потребуется ручная доводка, всё будет сконвертировано на автомате (ещё не проверял, но на досуге займусь).
Go to the top of the page
 
+Quote Post
Oleg
post Jul 11 2007, 15:09
Post #9


Advanced Member
***

Group: Root Admin
Posts: 5345
Joined: 17-February 06
Member No.: 2





Цитата(Echter @ Jul 11 2007, 13:46) *
   А исходник откуда? Есть ли какая-то гарантия, что его формат не изменится?

Исходник здесь:
http://download.wikipedia.org/zhwiki/
папка latest , файл с расширением bz2
Формат если и будет меняться, то только если будет меняться общий формат всей вики, мне так представляется.


--------------------
Go to the top of the page
 
+Quote Post
Echter
post Sep 4 2007, 18:33
Post #10


Advanced Member
***

Group: BCG
Posts: 263
Joined: 3-March 06
From: Sakhalin
Member No.: 94





   Давненько уже пощупал китайскую Википедию на предмет конвертации в Лингво, всё недосуг было поделиться опытом.
   Сделал нечто вроде скрипта - на самом деле, просто список замен с регулярными выражениями, который преобразует исходник энциклопедии в простейший dsl-формат. С небольшими правками этим "скриптом" можно воспользоваться для любой Википедии.
   Но. Исходник, как выяснилось, крайне неоднороден.
  • Во-первых, изрядное количество технического "мусора" - ненужных статей, которые касаются создания Википедии. Вроде бы, от мусора удалось избавиться, но нет стопроцентной гарантии, что вместе с ним не пропало что-то нужное.
  • Во-вторых: отсутствие единого прозрачного формата. Символы HTML бессистемным образом чередуются с юникодовыми символами. Таблицы реализованы разными способами, и их пришлось вырезать целиком.
  • В-третьих, специфичные тэги Википедии. Некоторые из них неоправданно многозначны и сложны. Например, большую проблему представляет собой достаточно простая вещь: дата рождения и смерти персоны, указываемая в скобках. Программа Converter_wiki, о которой Олег говорил здесь в самом первом сообщении, так вообще вырезает эти нужные сведения (и, очевидно, не только их).
   Вывод: для того, чтобы конвертировать это дело нужным образом, необходимо дотошно изучить формат исходников, на что у меня, признаться, не было времени. Есть и другой вариант: воспользовавшись движком Википедии, конвертировать текст в HTML, а уж из него при помощи доступных средств (LingvoDic Converter) преобразовывать в формат Лингво. Не знаю только, существует ли такая возможность.
   Converter_wiki не годится для полноценного словаря. Мой "скрипт" работает, вроде бы, немного лучше (хотя и дольше), но тоже не решает всех проблем - прежде всего потому, что создавался без детальной проработки формата.
Go to the top of the page
 
+Quote Post
LiBeiFeng
post Sep 5 2007, 12:39
Post #11


Advanced Member
***

Group: BCG
Posts: 659
Joined: 21-February 06
From: Bangkok
Member No.: 25





QUOTE(Echter @ Sep 4 2007, 19:33) *
...   
Есть и другой вариант: воспользовавшись движком Википедии, конвертировать текст в HTML, а уж из него при помощи доступных средств (LingvoDic Converter) преобразовывать в формат Лингво. Не знаю только, существует ли такая возможность.
   Converter_wiki не годится для полноценного словаря. Мой "скрипт" работает, вроде бы, немного лучше (хотя и дольше), но тоже не решает всех проблем - прежде всего потому, что создавался без детальной проработки формата.


Мне кажется лучшим вариантом было бы конвертировать отдельные страницы Википедии целиком в обычный HTML, а потом выделить оттуда толлько заголовки и по ним построить индекс для Лингво (по типу как в БЭС). Это позволило бы сохранить основную структуру текста, ибо там такое количество вставленных в текст рисунков и таблиц, что терять всю эту информацию превращая исходник в убогий Лингво-формат было бы преступлением. Правда весить это будет прилично...
Кстати, обратили внимание, что там полная неразбериха с полными и упрощёнными формами?

This post has been edited by LiBeiFeng: Sep 5 2007, 12:44
Go to the top of the page
 
+Quote Post
Echter
post Sep 7 2007, 18:56
Post #12


Advanced Member
***

Group: BCG
Posts: 263
Joined: 3-March 06
From: Sakhalin
Member No.: 94





QUOTE(LiBeiFeng @ Sep 5 2007, 11:39) *
Мне кажется лучшим вариантом было бы конвертировать отдельные страницы Википедии целиком в обычный HTML, а потом выделить оттуда толлько заголовки и по ним построить индекс для Лингво (по типу как в БЭС). Это позволило бы сохранить основную структуру текста, ибо там такое количество вставленных в текст рисунков и таблиц, что терять всю эту информацию превращая исходник в убогий Лингво-формат было бы преступлением. Правда весить это будет прилично...
Кстати, обратили внимание, что там полная неразбериха с полными и упрощёнными формами?

   Как выяснилось, HTML-версия таки есть: http://static.wikipedia.org/downloads. Правда, пока что самая последняя - за апрель. Подозреваю, что LingvoDicConverter должен брать её на "ура" без всяких лишних телодвижений. Но пока нет времени на эксперименты.
   Идея индекса для Лингво меня не вдохновляет. Даже один HTML без картинок будет занимать кучу места, да и работа с таким индексом не отличается удобством.
   Мешанина из полных и упрощённых форм - достаточно показательное явление. Это китайцам головная боль ещё не на одно десятилетие.
Go to the top of the page
 
+Quote Post
LiBeiFeng
post Sep 10 2007, 13:32
Post #13


Advanced Member
***

Group: BCG
Posts: 659
Joined: 21-February 06
From: Bangkok
Member No.: 25





QUOTE(Echter @ Sep 7 2007, 19:56) *
   Как выяснилось, HTML-версия таки есть: http://static.wikipedia.org/downloads. Правда, пока что самая последняя - за апрель. Подозреваю, что LingvoDicConverter должен брать её на "ура" без всяких лишних телодвижений. Но пока нет времени на эксперименты.


Там для китайского есть и за август... Правда странно, это что-то не то явно - какая-то статистика...

QUOTE
   Идея индекса для Лингво меня не вдохновляет. Даже один HTML без картинок будет занимать кучу места, да и работа с таким индексом не отличается удобством.
   

И всё-таки под убогим форматом Лингво это будет нечто весьма некрасивое. Вся прелесть Википедии с рисунками и таблицами пропадает - остатаётся фактически один голимый текст. Кстати, а русскую версию никто не пробовал конвертировать под какую-либо словарную оболочку?

QUOTE
Мешанина из полных и упрощённых форм - достаточно показательное явление. Это китайцам головная боль ещё не на одно десятилетие.


Вообще непонятно зачем они так сделали... Не лучше ли было бы создать 2 отдельных языка: китайский упр. и китайский трад. (или к примеру китайский (КНР) и китайский (Гонконг-Тайвань)), чем валить всё в одну кучу? И не было бы никаких проблем! Вон высосалили же они из пальца "Сибирский язык" (вероятно чья-то весьма не самая удачная шутка, но тем не меннее торчит в списке sad.gif )...

This post has been edited by LiBeiFeng: Sep 10 2007, 13:33
Go to the top of the page
 
+Quote Post
hvw
post Mar 15 2008, 13:54
Post #14


Member
**

Group: Основной участник
Posts: 27
Joined: 2-September 06
Member No.: 872





В стардикте есть интсрумент для автоматической конвертации sql-дампов википедии (с любого языка) в stardict-формат, который легко конвертируется в dsl с помощью пакета makedict. Также существует phyton-программа для просмотра wikipedia-дампов.
Go to the top of the page
 
+Quote Post
hvw
post Sep 20 2008, 22:45
Post #15


Member
**

Group: Основной участник
Posts: 27
Joined: 2-September 06
Member No.: 872





Ещё проще: версия википедия-дампа для стардикта. Всё конвертируется втроенной в stardict-tools программой прямо из википедия-дампа. Из стардикт-формата можно сконвертировать в лингво, но смысла не вижу: есть же стардикт для Виндовс. Словарь занимает 257 Мб в развёрнутом виде (dict.dz). Версия дампа от 2006/12/18.


Attached File(s)
Attached File  _______StarDict.png ( 57.52k ) Number of downloads: 15
 
Go to the top of the page
 
+Quote Post

Reply to this topicStart new topic
1 User(s) are reading this topic (1 Guests and 0 Anonymous Users)
0 Members:

 



Lo-Fi Version Time is now: 7th September 2010 - 06:53