دليـــل «لايـدن» لمـؤشــرات تقييـم البحـوث العلميــة

التفاصيل: انشأ بتاريخ: الجمعة، 05 حزيران/يونيو 2015 19:18; كتب بواسطة: المشرف

إنّ استخدام البيانات في تنظيم العلوم وتقييم المنجزات العلمية في ازدياد مستمر.. فعمليات تحكيم الأبحاث وتقييمها، التي كانت تتم من قبل حسب الطلب، ويقوم بها زملاء الباحثين والعلماء، أصبحت تجري بصورة روتينية، وفقًا لمؤشرات محددة¹، غير أن ذلك كشَف عن مشكلة جديدة تكمن في أن تحكيم البحوث العلمية أصبح يعتمد على البيانات، أكثر مما يعتمد على حُسْن التقدير. فقد اتسع نطاق استخدام المؤشرات، في ممارسة تتسم بحُسْن النية، لكن يشوبها نقص المعلومات، وغالبًا ما يُساء تطبيقها. إننا نخاطر الآن بتدمير منظومة البحث العلمي باستخدام الأدوات نفسها، التي صُممت لتطويرها وتحسينها، إذ تقوم بالتحكيم والتقييم مؤسسات تفتقر إلى معرفة الممارسات السليمة، ومهارات تفسير المعلومات، بل ولم تتلق أي نصائح أو إرشادات في هذا الصدد.

قبل حلول عام 2000، كان لدينا مؤشر استشهاد العلوم على قرص مدمج، أعدّه «معهد المعلومات العلمية» ISI، وكان يستخدمه الخبراء في عمليات التحليل المتخصصة. وفي عام 2002، أطلقت مؤسسة «تومسون رويترز» موقعًا إلكترونيًّا متكاملًا (Web of Science)؛ جَعل قاعدة بياناته عن العلوم متاحة على نطاق واسع، ثم تنافست خدمتان للاستشهاد، هما «سكوباس» Scopus من مؤسسة «إلسفير» (الذي تم إطلاقه في 2004)، وخدمة «جوجل سكولار» Google Scholar (تم إصدار النسخة التجريبية في 2004). كما تم إنشاء أدوات إلكترونية؛ للمقارنة بسهولة بين المؤسسات والجامعات في إنتاج الأبحاث العلمية، مثل InCites (باستخدام قاعدة بيانات «تومسون رويترز»)، و«ساي فال» SciVal (الذي يستخدم «سكوباس»)، بالإضافة إلى البرمجيات التي تحلل ملفات الاستشهاد لكل فرد، اعتمادًا على خدمة «جوجل سكولار» (مثل برنامج Publish or Perish، الذي تم إصداره في عام 2007).

في عام 2005، اقترح جورج هيرش ـ عالِم فيزياء من جامعة كاليفورنيا بسان دييجو ـ مؤشر h، الذي أسهم في ترويج عدد الاستشهادات لكل باحث على حدة. وزاد الاهتمام بمعامل تأثير الدوريات بصورة مطردة بعد عام 1995 (انظر الرسم التوضيحي: الهَوَس بعامل التأثير).

ومؤخرًا، اكتسبت المؤشرات المرتبطة بالاستخدام الاجتماعي والتعليقات على الإنترنت زخمًا، تجلَّى في إنشاء خدمة F1000Prime في عام 2002، وخدمة Mendeley في عام 2008، وموقع Altmetric.com (المدعوم من ماكميلان للعلوم والتعليم، التي تمتلك مجموعة Natureللنشر) في عام 2011.

شاهدنا بقلق بالغ ـ بوصفنا متخصصين في مؤشرات العلوم، وعلماء في الاجتماع، ومسؤولين عن الأبحاث ـ سوء التطبيق المتزايد لمؤشرات تحكيم الأداء العلمي وتقييمه. ونقدم فيما يلي بعضًا من الأمثلة العديدة. لقد أصبحت الجامعات على مستوى العالم مهووسة بمكانتها في الترتيب العالمي (مثل ترتيب شنجهاي، وقائمة مجلة تايمز للتعليم العالي)، رغم أن مثل هذه القوائم تعتمد على ما نعتبره بيانات غير دقيقة ومؤشرات عشوائية.

هناك مؤسسات علمية تطلب مؤشر h الخاص بالمرشحين قبل توظيفهم. وهناك جامعات عديدة تتخذ قرارات الترويج والدعاية لنفسها، بناء على الحد الأدنى لقيم مؤشر h، وعدد المقالات المنشورة في الدوريات «عالية التأثير». وأصبحت السِّيَر الذاتية للباحثين فرصًا للتفاخر والزهو بهذه المؤشرات، خاصة في مجال الطب الحيوي. وأصبح الأساتذة المشرفون على رسائل الدكتوراة يطلبون من الباحثين النشر في دوريات عالية التأثير، والحصول على تمويل خارجي؛ حتى يكونوا جديرين بالحصول على الدكتوراة.

في الدول الاسكندنافية والصين، تخصِّص بعض الجامعات مبالغ التمويل للأبحاث أو المكافآت على أساس (رقم)، كحساب درجات التأثير الفردي؛ من أجل تخصيص «موارد الأداء»، أو من خلال مَنْح الباحثين حافزًا للنشر في دورية بعامل تأثير أعلى من 15 (المرجع 2).

في عديد من الحالات، لا يزال الباحثون والقائمون على التقييم والتحكيم يتحلّون بقسط كبير من التوازن في التقدير وإصدار الأحكام، غير أن سوء استخدام المؤشرات البحثية أصبح من الشيوع والانتشار مما لا يسع المرء أن يتجاهله، أو يغض الطرف عنه.

من أجل هذا.. نعرض هنا لـ«دليل لايدن» Leiden Manifesto، الذي اشتق اسمه من المؤتمر الذي أقرّه (انظر: http://sti2014.cwts.nl) فالمبادئ العشرة للدليل ليست بالخبر الجديد للمتخصصين في مؤشرات العلوم، رغم أن أيًّا منا لن يستطيع تطبيقها جميعًا، بسبب نقص (الأكواد) حتى الآن. والبارعون في هذا المجال ـ مثل يوجين جارفيد (مؤسِّس معهد المعلومات العلمية) ـ يقومون بتوضيح بعض هذه المبادئ^4,3، غير أن هذا الجهد لا يؤخذ به عندما يعدّ مسؤولو التقييم والتحكيم التقارير لمسؤولي ومديري الجامعات غير المتخصصين في طرق التقييم. ويجد العلماء الذين يبحثون عن المطبوعات ـ من أجل إعداد تقييم أو تحكيم ـ المواد مبعثرة في دوريات مجهولة بالنسبة لهم، يفتقرون إلى سبل الوصول إليها.

إننا نقدم هنا هذا التأصيل لأفضل الممارسات في تقييم الأبحاث المعتمدة على المؤشرات العلمية، بحيث يتمكن الباحثون من محاسبة مسؤولي التقييم، ويستطيع مسؤولو التقييم الثقة في صحة ودقة مؤشراتهم.

المبادئ العشرة

ينبغي أن يدعم التقييم الكَمِّي التقييم النوعي للخبراء. تسهم المؤشرات الكمية في تحجيم الميول الشخصية للانحياز، عندما يقوم الباحثون بتقييم أعمال زملائهم، كما تسهم في تيسير التداول. وينبغي أن يعزز ذلك من عملية التحكيم والتقييم المتبادل بين الباحثين، لأن اتخاذ القرارات والأحكام بشأن الزملاء صعب من غير وجود مجموعة من المعلومات ذات الصلة. مع ذلك.. لا ينبغي أن يستسلم المحكِّمون للأرقام، ويتخلّون عن دورهم في صناعة القرار، ولا ينبغي أن تمثل المؤشرات بديلًا للتحكيم المدروس. وينبغي على كل شخص أن يتحمل مسؤولية التقييم الذي يقدمه.

قياس الأداء، مقابل المهام البحثية للمؤسسة، أو المجموعة، أو الباحث. ينبغي توضيح أهداف البرنامج في البداية، وينبغي أن ترتبط المؤشرات المستخدمة في تقييم الأداء ارتباطًا واضحًا بهذه الأهداف. كما يجب الأخذ في الاعتبار الظروف الاجتماعية والاقتصادية والثقافية الواسعة عند اختيار المؤشرات وطرق استخدامها. كما تختلف الأبحاث التي تطوِّر آفاق المعرفة الأكاديمية عن تلك المرتبطة بتقديم حلول لمشكلات المجتمع. وربما يعتمد التقييم أو التحكيم على المزايا المرتبطة بالسياسات، أو الشركات الخاصة، أو الجمهور العام، بدلًا من أفكار التفوق الأكاديمي. فلا ينبغي تطبيق نموذج موحد للتقييم على جميع السياقات والظروف.

حماية التميز في الأبحاث المحلية. في مناطق عديدة من العالم، يقترن التميز البحثي بالنشر في دوريات ومطبوعات باللغة الإنجليزية. ويؤكد القانون الإسباني على سبيل المثال أهمية نشر العلماء الإسبان في الدوريات عالية التأثير. ويتم حساب معدل التأثير للدوريات التي يفهرسها موقع تومسون رويترز للعلوم الذي يقع في الولايات المتحدة، والتي تنشر باللغة الإنجليزية في الأغلب. تمثل هذه الانحيازات اللغوية مشكلة عويصة في العلوم الاجتماعية والإنسانية التي تتفاعل فيها الأبحاث مع ظروف المجتمع المحلية والإقليمية. ولا تخلو العديد من المجالات والتخصصات العلمية من بعد وطني أو إقليمي – مثل انتشار وباء نقص المناعة البشرية في الدول الواقعة جنوب الصحراء الكبرى على سبيل المثال.

لا يحظى هذا التعدد والالتحام بمشكلات المجتمع باهتمام الباحثين، بسبب تركيز الأوراق العلمية على الموضوعات التي تروق أكثر للدوريات الإنجليزية عالية التأثير. وقد عمل علماء الاجتماع الإسبان الذين يكثر الاستشهاد بهم في موقع تومسون رويترز للعلوم على نماذج مجردة أو درسوا البيانات الأمريكية. وضاع في غمرة ذلك خصوصية علماء الاجتماع في الأوراق البحثية عالية التأثير باللغة الإسبانية، التي تجلت في موضوعات مثل قانون العمل المحلي أو الرعاية الصحية العائلية لكبار السن أو توظيف المهاجرين⁵. ينبغي أن تعمل المؤشرات المعتمدة على المطبوعات عالية الجودة بغير اللغة الإنجليزية على تحديد مجالات التفوق في الأبحاث المحلية الملائمة وتقديرها ومكافأتها.

الحفاظ على شفافية وبساطة عمليات جمع البيانات وتحليلها. ينبغي أن يسير إنشاء قواعد البيانات المطلوبة للتقييم وفق قواعد واضحة يجري تحديدها قبل اكتمال الأبحاث. وقد كان ذلك ممارسة شائعة بين الفرق الأكاديمية والتجارية التي صممت مناهج التقييم الببليومتري على مدار عدة عقود. وكانت هذه الفرق تطبق البروتوكولات المنشورة في المطبوعات المحكمة. وساعدت هذه الشفافية على القيام بعمليات الفحص والمراجعة. على سبيل المثال في عام 2010، أدى الجدل العام حول الخصائص التقنية لمؤشر مهم استخدمته إحدى فرقنا (مركز دراسات العلوم والتكنولوجيا في جامعة لايدن في هولندا) إلى مراجعة طريقة حساب هذا المؤشر⁶. وينبغي تطبيق المعايير نفسها على قواعد البيانات التجارية الجديدة، فلا ينبغي أن يقبل أحد آلة تقييم غامضة، أو غير معروفة.

تُعَدّ البساطة في المؤشرات العلمية فضيلة لأنها تعزز الشفافية، لكن المؤشرات المبسطة قد تشوه السجل أو التوثيق (انظر: المبدأ 7). ويجب أن يحرص الذين يقومون بالتقييم والتحكيم على تحقيق التوازن من خلال تطوير مؤشرات بسيطة تراعي تعقيد العملية البحثية.

«تُعَدّ البساطة في المؤشرات العلمية فضيلة، لأنها تعزِّز الشفافية».

السماح للباحثين الذين تم تقييمهم بالتأكيد على صحة البيانات والتحليل. لضمان جودة ونوعية البيانات، ينبغي أن يكون جميع الباحثين الذين تشملهم الدراسات الببليومترية قادرين على فحص ومراجعة صحة تقييم أبحاثهم. فكل شخص يدير عمليات التقييم ينبغي أن يضمن دقة البيانات من خلال التدقيق الذاتي أو تدقيق طرف خارجي. وبإمكان الجامعات تنفيذ ذلك في نظمها لمعلومات الأبحاث، وينبغي أن يكون ذلك مبدأ إرشاديًّا في اختيار مزودي هذه النظم. تتطلب البيانات الدقيقة عالية الجودة وقتًا ومالًا من أجل إعدادها وترتيبها. ولهذا.. ينبغي تخصيص ميزانية لهذا الأمر.

مراعاة اختلافات التخصص في ممارسات النشر والاستشهاد. تتمثل أفضل الممارسات في اختيار حزمة من المؤشرات المحتملة والسماح للمجالات والتخصصات المختلفة بالاختيار من بينها. وقبل عدة سنوات، تلقت مجموعة أوروبية من المؤرخين تصنيفًا منخفضًا نسبيًّا في التقييم الوطني التحكيمي، لأنهم ألفوا كتبًا، بدلًا من المقالات في الدوريات التي تفهرسها قاعدة «تومسون رويترز» للعلوم. وانتهى الأمر بهم إلى أنهم أصبحوا جزءًا من إدارة علم النفس. ويتطلب المؤرخون والعلماء الاجتماعيون كتبًا ومطبوعات باللغة الوطنية لتضمينها في حسابات النشر، ويتطلب علماء الحاسب حصر الأوراق العلمية في المؤتمرات.

تختلف معدلات الاستشهاد حسب المجال والتخصص.. فأفضل الدوريات في مجال الرياضيات تمتاز بمعدلات تأثير في حدود 3، أما أفضل الدوريات في علم بيولوجيا الخلية، فتصل معدلات تأثيرها إلى 30. ولهذا.. يتطلب الأمر مؤشرات موحدة. وتتمثل أفضل وأقوى طريقة لتوحيد المؤشرات في استخدام النِّسَب المئوية، حيث ينبغي تقييم كل ورقة بحثية على أساس النسبة المئوية التي تنتمي بها في توزيع الاستشهاد في مجالها (أعلى %1، أو %10، أو %20، على سبيل المثال). وتحسِّن المطبوعة الواحدة عالية الاستشهاد بصورة طفيفة من مكانة الجامعة في الترتيب الذي يعتمد على مؤشرات النسبة المئوية، لكن هذا الترتيب قد ينقل الجامعة من مكانة متوسطة لمكانة متقدمة في ترتيب الجامعات، بناء على متوسطات الاستشهاد⁷.

اعتماد التقييم الأساسي لكل باحث على التحكيم النوعي لمجمل أعماله. كلما تقدمتَ في العمر؛ زاد مؤشر h الخاص بك، حتى في غياب أوراق بحثية جديدة. ويختلف مؤشر h حسب المجال والتخصص، فمؤشر h لدى علماء الحياة يصل إلى 200، بينما يكون في حدود 100 لدى علماء الفيزياء، وقد يتفاوت بين 20، و30 لدى علماء الاجتماع (المرجع 8). يعتمد هذا المؤشر على قواعد البيانات، وهناك باحثون في علوم الحاسب يتراوح مؤشر hالخاص بهم في نطاق 10 في قاعدة «تومسون رويترز» للعلوم، بينما يتأرجح في نطاق 20، و30 في خدمة «جوجل سكولار» (المرجع 9). ولهذا.. يجدر بالمحكمين قراءة أعمال الباحث وتقييمها، بدلاً من الاعتماد على رقم واحد، حتى عند مقارنة أعداد كبيرة من الباحثين، فإن أفضل منهج هو ذلك الذي يجمع معلومات تفصيلية حول خبرات الباحث وأنشطته وتأثيره.

تجنُّب الشمول في غير موضعه، والدقة الزائفة. قد تصبح مؤشرات العلوم والتكنولوجيا عرضة لغموض المفاهيم وعدم تأكدها، وتحتاج إلى افتراضات قوية قد لا تحظى بقبول أو تأييد عام. فعلى سبيل المثال.. حدث جدل كبير حول معنى أرقام الاستشهاد، ولهذا.. فإن أفضل الممارسات تَستخدِم عدة مؤشرات لتقدم صورة شاملة ومتعددة. وإذا كان بالإمكان حساب كمية الخطأ والشك، على سبيل المثال.. باستخدام أشرطة الخطأ، فإن هذه المعلومات ينبغي أن تصاحب قِيَم المؤشرات المنشورة. وإذا كان ذلك غير ممكن، فينبغي على واضعي المؤشرات تجنب الدقة الزائفة على الأقل، مثل نشر معدل تأثير الدورية في ثلاث (خانات عشرية)؛ لتجنب الصلات. وفي ضوء غموض المفاهيم والتنوع العشوائي في عدد الاستشهادات، لن يكون مُجْدِيًا التمييز بين الدوريات على أساس فروق طفيفة في معامل التأثير. فلنتجنب الدقة الزائفة، فهناك «خانة عشرية» واحدة فقط هي المضمونة.

مراعاة التأثيرات المنهجية للتقييم والمؤشرات. تُغيِّر المؤشرات النظام من خلال الحوافز التي تؤسسها، ولذا.. ينبغي تجنب هذه التغييرات وتوقعها. وهذا يعني أن حزمة من المؤشرات مفضلة دائمًا.. فمؤشر واحد سيتطلب تغيير قواعد اللعبة والأهداف (بحيث يصبح القياس نفسه هو الهدف). وعلى سبيل المثال.. في عام 1990، أسست أستراليا أبحاثًا جامعية باستخدام صيغة تعتمد بصورة رئيسية على عدد الأوراق البحثية التي تنشرها المؤسسة التعليمية. لهذا.. بإمكان الجامعات حساب «قيمة» ورقة بحثية في دورية مرجعية؛ في عام 2000، بلغت 800 دولار أسترالي (نحو 480 دولارًا أمريكيًّا في 2000) في تمويل الأبحاث. وقد ارتفع عدد الأوراق التي نشرها الباحثون الأستراليون، ولكن في دوريات أقل استشهادًا، مما يشير إلى انخفاض جودة المقالات¹⁰.

فَحْص ومراجعة المؤشرات بانتظام، وتحديثها. تتغير المهام البحثية وأهداف التقييم، ويجب على المنظومة البحثية أن تطور نفسها بنفسها؛ لتواكب هذه التغيرات. فالمؤشرات التي كانت مفيدة يومًا، أصبحت الآن غير كافية، وبدأت تظهر مؤشرات جديدة. وقد طرحت أستراليا في عام 2010 ـ بعد أن أدركت آثار مؤشراتها المبسطة ـ مبادرة أكثر تعقيدًا، بعنوان: «التميز في البحوث من أجل أستراليا»، وهي مبادرة جعلت جودة البحوث العلمية نصب أعينها.

الخطوات التالية

في حالة الالتزام بهذه المبادئ العشرة، من الممكن أن يقوم تقييم البحوث وتحكيمها بدور مهم في نهضة العلم وتفاعله مع المجتمع. توفِّر مؤشرات البحوث معلومات جوهرية، من الصعب جمعها أو فهمها عن طريق الخبرة الفردية وحدها. ولهذا.. لا ينبغي السماح لهذه المعلومات الكمية بالانتقال من كونها أداة إلى كونها هدفًا في حد ذاتها.

يتم اتخاذ أفضل القرارات عند الجمع بين الإحصائيات الموثقة، مع الحساسية نحو هدف وطبيعة البحث الجاري تقييمه. ويتطلب الأمر أدلّة كَمِّيَّة ونوعية، كل منها هدف في حد ذاته. ويجب أن تعتمد صناعة القرارات بشأن العلوم على إجراءات عالية الجودة، تَستلهِم بيانات على أرقى مستوى من الجودة.

References

1. Wouters, P. in Beyond Bibliometrics: Harnessing Multidimensional Indicators of Scholarly Impact (eds Cronin, B. & Sugimoto, C.) 47–66 (MIT Press, 2014).

2. Shao, J. & Shen, H. Learned Publ. 24, 95–97 (2011).

3. Seglen, P. O. Br. Med. J. 314, 498–502 (1997).

4. Garfield, E. J. Am. Med. Assoc. 295, 90–93 (2006).

5. López Piñeiro, C. & Hicks, D. Res. Eval. 24, 78–89 (2015).

6. van Raan, A. F. J., van Leeuwen, T. N., Visser, M. S., van Eck, N. J. & Waltman, L. J. Informetrics 4, 431–435 (2010).

7. Waltman, L. et al. J. Am. Soc. Inf. Sci. Technol. 63, 2419–2432 (2012).

8. Hirsch, J. E. Proc. Natl Acad. Sci. USA 102, 16569–16572 (2005).

9. Bar-Ilan, J. Scientometrics 74, 257–271 (2008).

10.Butler, L. Res. Policy 32, 143–155 (2003).

نقلا عن مجلة الطبيعة – النسخة العربية

عدد 1 يونيو 2015م

http://arabicedition.nature.com/journal/2015/06/520429a

دليـــل «لايـدن» لمـؤشــرات تقييـم البحـوث العلميــة

القائمة الرئيسية

احصائيات

الأكثر قرآءةً