clean up

Начал Private User вторник, 7 июля 2020
Возникла проблема на этой странице?

Участники:

Упомянутые профили:

Показаны все сообщения (10)
Private User
7.7.2020 в 6:20 до полудня

В этом проекте, как и в связанном с ним "Мемориал: Жертвы политического террора в СССР", очень много дубликатов. Мне несколько раз попадалось по 5-6 профилей одного и того же человека, а уж 2-3 профиля - обычное дело. Изначально по непонятной причине во всех (или почти во всех) профилях не были проставлены даты смерти, хотя в описаниях они обычно присутствуют. Теперь это досадное недоразумение потихоньку исправляется (Thank you, Juha Mustonen (Geni Curator - on hiatus)!), и Geni автоматически распознаёт дубликаты, предлагая Tree Matches. Давайте общими усилиями наведём порядок и хотя бы объединим дубликаты. В идеале неплохо было бы и географию привести в божеский вид, а то в полях места рождения зачастую, помимо разнобоя, встречаются Ленинград для XIX века и падежные формы типа г.Самары (уроженец г.Самары?).

7.7.2020 в 7:23 до полудня

Обращаться нужно скорее к инициатору идеи "загрузить на geni весь мемориал россыпью". Профили без связи большой пользы не принесли, скорее (имхо) дискредитировали идею. Идея в связях, а не в списках и в личном участии, которое таким размещением не стимулировалось. Хорошо, что блокадные списки никто не додумался чохом бахнуть на geni. Или obd-memorial. Зачем мне дубль профиля моего прадеда "автоматически созданный" да еще и с ошибками от НКВД при наличии нормального, в котором информации раз в 100 больше и есть связи? Объединять даже неприятно ... Просил Володю удалить, был не понят. А других репрессированных родных нет. И я не буду рад, если они чье-то волей "автоматически" появятся. Не думаю, что с таким ощущением я одинок.

То, что трактором напахали, трактором и запахивать. Руками это делать - бессмысленная трата сил. Я бы предложил три скрипта:
1. при выявлении дублирующих профилей, среди которых есть достаточно полно описанный (критерий заполненности по полям и наличие нескольких связей задать несложно), а остальные не имеют связей, автоматически созданы - автоматические удалить.
2. Если есть очень близко дублирующие автоматически созданные имеющие более одной связи связи (даты рождения, смерти) - принудительно объединить. Если до профиля доберутся руками, то и возможную ошибку идентификации исправят.
3. Автоматически созданные профили, имеющие только одну связь (отца) удалить за невостребованностью в течении 5 лет. Вероятность, что ими кто-то займется в разумное время невелика.

Private User
7.7.2020 в 8:07 до полудня

Сейчас скрипт помогает выявить дубликаты. Их можно объединить, соединив в одном профиле информацию из разных источников. Остальные профили без дат потом удалить как незаполненные и невостребованные. В проекте "Мемориал" сейчас вообще 2762246 профилей. Это, конечно, перебор, и руками такое не исправить. Согласен, что такая свалка дискредитирует генеалогический проект, а для проектов памяти есть другие ресурсы. Но то, что можно сохранить, можно сохранить.

7.7.2020 в 1:21 после полудня

Я объединяю дубликаты, когда встречаю, и вычищаю описания так, чтобы они в итоге не дублировались.

Private User
7.7.2020 в 2:42 после полудня

К сожалению, у geni.com есть еще одна проблема - это дубликаты людей с одинаковыми фамилиями на разных языках. Особенно это касается потомков русских эмигрантов, которые пишут фамилии своих предков из россии на иностранных языках, но не русском.
Понятно, что Ivanov - он и в Африке Иванов, но ведь есть еще Ivanoff) - но это простой вариант.
(см. например Алексей Ивановь)

Приходится в поиске забивать разные варианты фамилий.
А если это более мудреная фамилия?
Аналогично, фамилии потомков иностранцев в россии часто указаны только на русском, что усложняет возможный поиск со стороны иностранцев.
Такое попадается в данной теме. Например, если репрессирован эстонец, поляк или немец, но фамилия записана на русском. Наверняка, у таких лиц могут быть и дубликаты, записанные "на родных языках".
И это если говорить только про латиницу и кириллицу.
Остается только гадать, сколько может быть дубликатов лиц из стран и территорий, где письменность имеет совсем другую основу (взять даже лиц грузинского происхождения - наверняка есть дубликаты на грузинском, русском и английском, которые можно было бы объединить, но вряд ли кто-то когда-то до этого дойдет в обозримом будущем).

Поэтому было бы здорово, если бы хотя бы фамилии дублировались на том языке и в том написании, откуда родом предок и хотя бы был общий дубляж на русском (для территорий, ранее бывших в составе Российской империи) и английском (для международных случаев).

Private User
7.7.2020 в 2:59 после полудня

Не все иностранцы в достаточной степени владеют русским. Заметили ошибку в публичном профиле - исправьте. Ясон белыйстороны (sic!), видимо, хотел воспроизвести дореволюционную орфографию с ъ, но перепутал буковку :). Ещё многие копируют из Википедии с символами ударения, не подозревая, возможно, что в русском языке таких букв просто нет, а лишние символы ударений ломают внутренний поиск Geni. Но это всё лирика, не имеющая непосредственного отношения к данному проекту и проблеме дубликатов в нём.

Private User
7.7.2020 в 3:24 после полудня

Но глобально проблема разных языков остаётся и это не лирика.
Ясон белойстороны - это как примерно Denis Wolf, да) Исправить чужие профили и ошибки в них кстати могут только модераторы и PRO. Но достоинство этого проекта - это как раз достаточно широкие возможности и без этих статусов.
Применительно к данному проекту я бы все таки предложил по репрессированным лицам не русского происхождения добавлять транскрипции фамилий на их родных языках. Будет не хуже и возможно облегчит их присоединение к основному дереву.

Private User
8.7.2020 в 8:01 до полудня

Что говорить об иностранцах, если сплошь и рядом фамилия на кириллице, а имя на латинице, один брат на кириллице, а другой на латинице.
Есть специальное поле для титула, так нет, титул пишут впереди фамилии, причем с различными вариантами написания, и делают это люди, которые, согласно должности, должны быть примером для остальных.
Такое впечатление, что человек никогда не открывал телефонный справочник, я уже не говорю о книгах Весь Петербург..

8.7.2020 в 8:37 до полудня

Unfortunately I cannot contribute to your discussion in Russian as I have mostly forgotten the little I learned about thirty years ago in school and university. I will most likely add names in latin script for at least those profiles that are marked as Finns. This should help in finding duplicates created from Finnish documents. Reproducing correct latinized names will be challenging and in some cases the best you can do is to make an educated guess - e.g. Ivan is probably Juho in Finnish.

In my opinion even direct transliteration would be useful for all profiles.

Private User
8.7.2020 в 8:45 до полудня

yes, Juha, please do it for Finns, it would really help identify duplicates with existing trees. As for direct transliteration, I would refrain from that as there are far too many ways of transliterating Russian into Latin script. Instead, I would suggest adding Russian to those profiles that have names of Russian origin. This is very common, for instance, for Finns where Aleksi Ivanpoika = Алексей Иванович.

Показаны все сообщения (10)

Зарегистрируйтесь или войдите в систему чтобы участвовать в этом обсуждении