Профессиональный Востоковедческий форум для незарегистрированных посетителей работает в режиме «только для чтения», часть разделов при этом недоступна. Если вы хотите участвовать в работе форума, и получить доступ к другим разделам, оставьте заявку здесь. На форуме осуществляется работа по оцифровке в формате Лингво китайско-русских словарей, желающие могут присоединиться.
![]() ![]() |
Jun 9 2007, 15:32
Post
#1
|
|
![]() Advanced Member ![]() ![]() ![]() Group: Root Admin Posts: 5345 Joined: 17-February 06 Member No.: 2 ![]() |
Конвертация китайской Wikipedia
Что удалось найти в сети по проблеме конвертации: 1. Уже конвертированную вики в формат Sdictionary можно найти на сайте http://sdict.ru/ (на момент написания сообщения сайт недоступен). Там выложена китайская википедия ZH 2007-01-05. (прямая ссылка http://sdict.com/ru/view.php?file=zhwiki-2007-01-05_wiki.dct ) Программа для просмотра Sdictionary for Windows english version v 1.0.0 (демо): http://axmasoft.com/rsc/download.php?produ....0.0-win-en.zip Русская Wikipedia 2007-01-03, 197446 статей, конвертировано AXMA Soft: http://rapidshare.com/files/33875922/ruwik....part1.rar.html http://rapidshare.com/files/33877093/ruwik....part2.rar.html 2. Следующая инструкция от создателя программы Dict http://www.free-dict.narod.ru/ Converter_wiki Создана возможность каждому пользователю самому сделать (и обновлять в дальнейшем) словарик википедии на ЛЮБОМ языке. Но процесс конвертации долгий и на слабой машине может занять от нескольких часов до нескольких дней. Также для конвертации потребуется много свободного места на винте. Примеры: Для конвертации EN-вики нужно около 25 гигабайт свободного пространства на винте. Для конвертации RU-вики нужно около 3 гигабайт свободного пространства на винте. Последовательность действий: I) Скачать Converter_wiki, распаковать. II) Зайти по ссылке для скачивания википедии: http://download.wikipedia.org/backup-index.html Найти википедию на нужном вам языке (например RU-вики: http://download.wikipedia.org/ruwiki/20070202/ ) скачать pages-meta-current архив bz2 нужной вам википедии (в названии скачиваемого файла должно быть слово pages-meta-current). И скопировать этот архив в папку Converter_wiki (в папке Converter_wiki одновременно должен находится только один архив bz2!!!) II. а)Если pages-meta-current архив отсутствует или не скачивается\расжимается по причине ошибки архива, то пройти по ссылке Last dumped on... (слева вверху страницы) Для поиска предыдущей версии pages-meta-current архива. И так до тех пор пока не найдете\скачаете не "сломанный" meta-current архив. III) Запустить Start.bat в папке Converter_wiki и дождаться окончания конвертации (Черное окошко должно САМО закрыться. Его вручную закрывать НЕ НУЖНО). Все. В результате получится словарик нужной вам вики с расширением zd . Дальнейшие подробности http://forum.pocketz.ru/index.php?showtopic=23149&st=60 Cловари для программы Dict (Windows Mobile) http://dict.pocketz.ru/ ============================= Как бы базы, полученные таким способом, конвертнуть под лингво? Они того стоят. Особенно для перевода разных географических названий и имен собственных, которых в существующих на данный момент словарях очень мало. -------------------- |
|
|
|
Jun 9 2007, 22:50
Post
#2
|
|
![]() Advanced Member ![]() ![]() ![]() Group: Root Admin Posts: 5345 Joined: 17-February 06 Member No.: 2 ![]() |
Китайская версия википедии от 2007-May-25 для Dict – 135 Мб.
http://rapidshare.com/files/36196029/wiki.part2.rar http://rapidshare.com/files/36200865/wiki.part1.rar Смотрится не очень. Программа не поддерживает для иероглифов перенос по границе окна и увеличение иероглифов. -------------------- |
|
|
|
Jun 10 2007, 11:29
Post
#3
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 659 Joined: 21-February 06 From: Bangkok Member No.: 25 ![]() |
Конвертация китайской Wikipedia Как бы базы, полученные таким способом, конвертнуть под лингво? Они того стоят. Особенно для перевода разных географических названий и имен собственных, которых в существующих на данный момент словарях очень мало. Не знаю как это выглядит в форматах: Sdictionary и Dict, но фомат Лингво в том виде как он сейчас есть малоподходящий изначально для энцклопедий, из-за весьма убогих возможностей возможностей форматирования текста и невозможности непосредственной вставки рисунков и таблиц в текст. Если для обычных словарей, где важен текст, с этим можно ещё как-то скрипя зубы смириться, то для энцклопедий где куча таблиц, рисунков и и прочего оформления, это огромный минус. |
|
|
|
Jun 10 2007, 15:39
Post
#4
|
|
![]() Advanced Member ![]() ![]() ![]() Group: Root Admin Posts: 5345 Joined: 17-February 06 Member No.: 2 ![]() |
На самом деле исходник получился вполне приличный. Все картинки и таблицы удалены, но оставшегося материала вполне достаточно для понимания смысла слова. На мой взгляд, исходник достаточно просто будет конвертировать в лингво.
Выкладываю текстовый файл. Размер – 326 Мб. RAR – 101 Мб. http://rapidshare.com/files/36314386/wiki.part1.rar http://rapidshare.com/files/36316628/wiki.part2.rar Единственное, все правки надо будет делать в виде макроса или программы, чтобы периодически делать обновления по мере внесения новых статей и дополнений в википедию. -------------------- |
|
|
|
Jun 14 2007, 18:38
Post
#5
|
|
![]() Advanced Member ![]() ![]() ![]() Group: Root Admin Posts: 5345 Joined: 17-February 06 Member No.: 2 ![]() |
001.jpg ( 37.34k )
Number of downloads: 24Черновая конвертация для лингво китайской википедии завершена. Данные соответствуют 25 мая 2007 г. Два файла DSL - общий объем 315 Мб. В RAR - 98 Мб. Количество карточек - около 104 тысяч. Недостатки - большое количество ошибок компиляции, вызванных исходником википедии. Требуется доработка самого процесса конвертации. Заголовки в основном в упрощенных иероглифах, хотя встречаются и традиционные. -------------------- |
|
|
|
Jul 10 2007, 20:44
Post
#6
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 263 Joined: 3-March 06 From: Sakhalin Member No.: 94 ![]() |
Черновая конвертация для лингво китайской википедии завершена... Далеко ли продвинулся процесс конвертации? Я посмотрел исходник словаря - его, похоже, несложно переделать в Лингво с сохранением основного форматирования и большинства перекрёстных ссылок. Хотя за это время в онлайн-википедии количество статей возросло на добрый десяток тысяч, иметь такой источник в общей связке Лингво-словарей всё равно было бы неплохо. Стоит ли этим заняться? Есть ли какие-то наработки? |
|
|
|
Jul 11 2007, 00:11
Post
#7
|
|
![]() Advanced Member ![]() ![]() ![]() Group: Root Admin Posts: 5345 Joined: 17-February 06 Member No.: 2 ![]() |
Далеко ли продвинулся процесс конвертации? Остался в черновом варианте. Каких-то особых наработок нет, делал вручную в EmEditor. Заняться стоит в том смысле, что необходимо что-то наподобие скрипта как в Converter_wiki, чтобы можно было потом тупо его запускать по мере прибавления статей на китайской википедии. -------------------- |
|
|
|
Jul 11 2007, 12:46
Post
#8
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 263 Joined: 3-March 06 From: Sakhalin Member No.: 94 ![]() |
Заняться стоит в том смысле, что необходимо что-то наподобие скрипта как в Converter_wiki, чтобы можно было потом тупо его запускать по мере прибавления статей на китайской википедии. А исходник откуда? Есть ли какая-то гарантия, что его формат не изменится? Сделать скрипт для компиляции теоретически можно. Но я использую для создания словарей LingvoDicConverter, который переводит словарь в базу данных, а уж из неё конвертирует. Кстати, в случае с Википедией там, может быть, даже не потребуется ручная доводка, всё будет сконвертировано на автомате (ещё не проверял, но на досуге займусь). |
|
|
|
Jul 11 2007, 15:09
Post
#9
|
|
![]() Advanced Member ![]() ![]() ![]() Group: Root Admin Posts: 5345 Joined: 17-February 06 Member No.: 2 ![]() |
А исходник откуда? Есть ли какая-то гарантия, что его формат не изменится? Исходник здесь: http://download.wikipedia.org/zhwiki/ папка latest , файл с расширением bz2 Формат если и будет меняться, то только если будет меняться общий формат всей вики, мне так представляется. -------------------- |
|
|
|
Sep 4 2007, 18:33
Post
#10
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 263 Joined: 3-March 06 From: Sakhalin Member No.: 94 ![]() |
Давненько уже пощупал китайскую Википедию на предмет конвертации в Лингво, всё недосуг было поделиться опытом.
Сделал нечто вроде скрипта - на самом деле, просто список замен с регулярными выражениями, который преобразует исходник энциклопедии в простейший dsl-формат. С небольшими правками этим "скриптом" можно воспользоваться для любой Википедии. Но. Исходник, как выяснилось, крайне неоднороден.
Converter_wiki не годится для полноценного словаря. Мой "скрипт" работает, вроде бы, немного лучше (хотя и дольше), но тоже не решает всех проблем - прежде всего потому, что создавался без детальной проработки формата. |
|
|
|
Sep 5 2007, 12:39
Post
#11
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 659 Joined: 21-February 06 From: Bangkok Member No.: 25 ![]() |
... Есть и другой вариант: воспользовавшись движком Википедии, конвертировать текст в HTML, а уж из него при помощи доступных средств (LingvoDic Converter) преобразовывать в формат Лингво. Не знаю только, существует ли такая возможность. Converter_wiki не годится для полноценного словаря. Мой "скрипт" работает, вроде бы, немного лучше (хотя и дольше), но тоже не решает всех проблем - прежде всего потому, что создавался без детальной проработки формата. Мне кажется лучшим вариантом было бы конвертировать отдельные страницы Википедии целиком в обычный HTML, а потом выделить оттуда толлько заголовки и по ним построить индекс для Лингво (по типу как в БЭС). Это позволило бы сохранить основную структуру текста, ибо там такое количество вставленных в текст рисунков и таблиц, что терять всю эту информацию превращая исходник в убогий Лингво-формат было бы преступлением. Правда весить это будет прилично... Кстати, обратили внимание, что там полная неразбериха с полными и упрощёнными формами? This post has been edited by LiBeiFeng: Sep 5 2007, 12:44 |
|
|
|
Sep 7 2007, 18:56
Post
#12
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 263 Joined: 3-March 06 From: Sakhalin Member No.: 94 ![]() |
Мне кажется лучшим вариантом было бы конвертировать отдельные страницы Википедии целиком в обычный HTML, а потом выделить оттуда толлько заголовки и по ним построить индекс для Лингво (по типу как в БЭС). Это позволило бы сохранить основную структуру текста, ибо там такое количество вставленных в текст рисунков и таблиц, что терять всю эту информацию превращая исходник в убогий Лингво-формат было бы преступлением. Правда весить это будет прилично... Кстати, обратили внимание, что там полная неразбериха с полными и упрощёнными формами? Как выяснилось, HTML-версия таки есть: http://static.wikipedia.org/downloads. Правда, пока что самая последняя - за апрель. Подозреваю, что LingvoDicConverter должен брать её на "ура" без всяких лишних телодвижений. Но пока нет времени на эксперименты. Идея индекса для Лингво меня не вдохновляет. Даже один HTML без картинок будет занимать кучу места, да и работа с таким индексом не отличается удобством. Мешанина из полных и упрощённых форм - достаточно показательное явление. Это китайцам головная боль ещё не на одно десятилетие. |
|
|
|
Sep 10 2007, 13:32
Post
#13
|
|
|
Advanced Member ![]() ![]() ![]() Group: BCG Posts: 659 Joined: 21-February 06 From: Bangkok Member No.: 25 ![]() |
Как выяснилось, HTML-версия таки есть: http://static.wikipedia.org/downloads. Правда, пока что самая последняя - за апрель. Подозреваю, что LingvoDicConverter должен брать её на "ура" без всяких лишних телодвижений. Но пока нет времени на эксперименты. Там для китайского есть и за август... Правда странно, это что-то не то явно - какая-то статистика... QUOTE Идея индекса для Лингво меня не вдохновляет. Даже один HTML без картинок будет занимать кучу места, да и работа с таким индексом не отличается удобством. И всё-таки под убогим форматом Лингво это будет нечто весьма некрасивое. Вся прелесть Википедии с рисунками и таблицами пропадает - остатаётся фактически один голимый текст. Кстати, а русскую версию никто не пробовал конвертировать под какую-либо словарную оболочку? QUOTE Мешанина из полных и упрощённых форм - достаточно показательное явление. Это китайцам головная боль ещё не на одно десятилетие. Вообще непонятно зачем они так сделали... Не лучше ли было бы создать 2 отдельных языка: китайский упр. и китайский трад. (или к примеру китайский (КНР) и китайский (Гонконг-Тайвань)), чем валить всё в одну кучу? И не было бы никаких проблем! Вон высосалили же они из пальца "Сибирский язык" (вероятно чья-то весьма не самая удачная шутка, но тем не меннее торчит в списке This post has been edited by LiBeiFeng: Sep 10 2007, 13:33 |
|
|
|
Mar 15 2008, 13:54
Post
#14
|
|
![]() Member ![]() ![]() Group: Основной участник Posts: 27 Joined: 2-September 06 Member No.: 872 ![]() |
В стардикте есть интсрумент для автоматической конвертации sql-дампов википедии (с любого языка) в stardict-формат, который легко конвертируется в dsl с помощью пакета makedict. Также существует phyton-программа для просмотра wikipedia-дампов.
|
|
|
|
Sep 20 2008, 22:45
Post
#15
|
|
![]() Member ![]() ![]() Group: Основной участник Posts: 27 Joined: 2-September 06 Member No.: 872 ![]() |
Ещё проще: версия википедия-дампа для стардикта. Всё конвертируется втроенной в stardict-tools программой прямо из википедия-дампа. Из стардикт-формата можно сконвертировать в лингво, но смысла не вижу: есть же стардикт для Виндовс. Словарь занимает 257 Мб в развёрнутом виде (dict.dz). Версия дампа от 2006/12/18.
Attached File(s)
|
|
|
|
![]() ![]() |
| Lo-Fi Version | Time is now: 7th September 2010 - 06:53 |